框架,人类,问题,提示,策略,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...芝加哥大学一个研究团队开发了一种可扩展的开放式 RLHF 框架 eva，即 Evolving Alignment via Asymmetric Self-Play，也就是「通过非对称自博弈实现的演进式对齐」。论文标题：Evolving Alignment via Asymmetric Self-Play 论文地址……更多

2024-11-06 09:44:00框架,人类,问题,提示,策略,模型

混合架构赋予AI人类推理能力

...算成本太高，难以大规模应用。科学家们说，三个资料库框架都使用神经符号方法——一种结合神经网络的人工智能结构。神经网络就是采用经典的类似程序的逻辑方法，模仿人类大脑结构的机器学习算法集合。编码更加智能大...……更多

2024-06-12 18:15:00推理,架构,混合,人类,能力,语言

CMU&清华：让LLM自己合成数据来学习，特定任务性能同样大

...成、输出数据生成和质量优化。输入数据生成在 SELF-GUIDE 框架的设计和实现过程中，研究者首先根据任务类型（生成型任务或分类型任务）指定不同的提示模板。对于生成型任务， SELF-GUIDE 框架使用一个相对简单的提示模板。而...……更多

2024-08-02 09:40:00清华,性能,任务,数据,学习,生成

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

...进进行压力测试， OpenAI 在部署之前根据自己的安全准备框架进行了一系列安全测试和红队测试。结果发现，思维链推理有助于在整个评估过程中提高能力。尤其值得注意的是，OpenAI 观察到了有趣的奖励黑客攻击实例。安全准备...……更多

2024-09-13 16:42:00推理,模型,极限,突破,学习,模型

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM

...究团队也想发问：构建通用智能体时，在铺设复杂的系统框架前，是否已经优化了行动 / 观测空间，让这些功能模块达到了最优状态？论文链接：https://arxiv.org/abs/2410.13825 论文名：AgentOccam: A Simple Yet Strong Baseline for……更多

2024-11-07 09:54:00样本,模型,策略,训练,经验,智能

OpenAI 超强 o1 智商超 120 遥遥领先于其他模型

...述出研究论文「方法」部分的内容。虽然 AI 生成的代码框架，模拟了 Kabasares 实际代码功能，但它使用的是「合成数据」，并非真实的天文数据。论文地址： https://iopscience.iop.org/article / 10.3847/1538-4357 / ac7a38 / m……更多

2024-09-18 09:49:00智商,选手,模型,博士,领先,年代

补齐Transformer规划短板又不放弃快速思考，Dual

...决这些挑战，他们提出了一个利用随机化推理轨迹的训练框架。该方法的灵感来自两个研究方向：该团队注意到，即便 Searchformer 是在完整的 A* 搜索轨迹上训练的，但它也会生成更短的勾勒搜索过程的轨迹。研究表明，人类在...……更多

2024-10-17 09:47:00优势,规划,推理,轨迹,模型,慢速

OpenAI重拾规则系统，用「AI版机器人定律」守护大模型安

...规则来判断这些命题的真值组合是否符合需求。基于这一框架，就可以使用这些分类规则来对完成结果进行准确地排名。为了将基于安全规则的排名与仅帮助式（helpful-only，是指仅考虑结果的有用性，不考虑安全性）奖励模型组...……更多

2024-11-07 09:54:00定律,机器人,模型,规则,机器,安全

综合RLHF、DPO、KTO优势，统一对齐框架UNA来了

...back）以及基于评分的反馈（score-based feedback）。监督学习框架的统一性：UNA 通过最小化隐式奖励和显式奖励之间的差异，统一了对策略模型的优化。UNA 的理论基础UNA 的理论基础源于对 RLHF 目标函数的重新推导。研究人员证明，...……更多

2024-10-10 09:56:00框架,优势,统一,综合,模型,奖励

还在人工炼丹？自动提示工程指南来了，还带从头实现

...作原理，从而更好地利用能帮助我们使用那些实现 APE 的框架。本教程的代码已经发布在 GitHub。地址：https://github.com/marshmellow77/automated-prompt-engineering-from-scratch APE 为什么很重要？要为给定任务找……更多

2024-09-10 13:39:00从头,人工,提示,指南,工程,提示

谷歌大模型推理范式，主要分为两个阶段

...waroopMishra是谷歌DeepMind的研究科学家，它参与的Self-Instruct框架在GitHub上星标3.5k、被引用次数超过600，并被ACL2023接收。此外QuocLe、DennyZhou等大模型提示微调、推理方向的老面孔也参与其中。虽然官方暂未开源，但已经有迫不及待..……更多

2024-02-10 21:09:00范式,推理,模型,阶段,两个,模型

开闭源模型「大乱斗」：看看哪个智能体最能窥见人类真实意图

...与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架，基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性，询问用户意图，并在启动下游智能体任务执行之前将其细化为可操作的目标。将该模型嵌入 XAgent 框架后，...……更多

2024-08-14 09:39:00意图,模型,人类,智能,智能,任务

基于MetaGPT，DeepWisdom希望构建多智能体社区

...MetaGPT便是为了解决这个问题。MetaGPT是一个多智能体开源框架，主要用于解决大模型落地应用问题，它可以通过模拟软件公司多角色，输出产品设计、架构图、代码repo等内容。它将会完成编程的自动化，完整利用AgentOS能力，完...……更多

2023-10-31 11:44:00智能,社区,智能,社区,框架,代码

科学家提出大模型分子交互学习框架，已在400多万分子对中验证

...在团队开发的首个统一的多模态大语言模型分子交互学习框架——MolTC（Molecular inTeraction Modeling enhanced byChain-of-thought theory），为解决上述问题带来了新的曙光。目前，在多个数据集的 4000000 多个分子之中，MolT……更多

2024-03-07 10:44:00分子,科学家,框架,模型,验证,科学

AI写的小说，能打败网文大神吗？

...团队分析研究了网络小说的情节结构，设定了初步的情节框架后，陆续在6个国内大语言模型上进行试验，并最终确定其中一个大语言模型完成整个创作。“基于目前的AI技术，并不是每一个大语言模型都能完成这样一部百万字小...……更多

2024-06-14 09:38:00网文,大神,小说,王峰,模型,使徒

整合长期记忆，AI实现自我进化，探索大模型这一可能性

...对 AI 自我进化的重要性，并且他们还提出了自己的实现框架 —— 基于多智能体的 Omne，其在 GAIA 基准上取得了第一名的成绩。论文标题：Long Term Memory : The Foundation of AI Self-Evolution 论文地址：https://arxiv.o……更多

2024-10-29 09:55:00进化,可能性,模型,整合,记忆,模型

信澳鑫悦智选混合：量化加持，锻造固收+新势力

...大数据的覆盖）相结合、兼具研究深度与广度的量化投资框架。量化策略加持下的股债混合策略，能够细分资产来对组合精耕细作。在大类资产方面，信澳鑫悦智选拟采用多资产、多策略的量化体系为基础，运用风险预算模型为...……更多

2023-11-20 17:34:00势力,混合,基金,收益,投资,风险

全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智

...任务。下图展示了具身智能体的典型架构。具身智能体框架在本综述中，我们对具身智能的当前进展进行了全面概述，包括：（1）具身机器人—— 具身智能在物理世界中的硬件方案；（2）具身仿真平台—— 高效且安全地训练...……更多

2024-07-29 09:39:00中大,文献,调研,深度,实验室,实验

大语言模型如何宣告心理学的死亡？

...的现象，而未能构建一个脱离简单相关性的更全面的理解框架。如果不妥善对待行为主义的幽灵，人工智能心理学家们很可能会重走人类心理学的弯路，甚至会因为缺乏演化的动力学框架而偏离的更远。反过来说，我们即将在...……更多

2024-02-09 15:00:00心理学,模型,语言,心理,人类,心理

OpenAI o1太贵？那就自己做一个！纯提示方法让普通LL

...d score. 深入细节动态CoT、反思和语言强化学习的组合框架创建了一个高度自适应和响应迅速的问题解决AI系统。这个过程从Dynamic CoT生成初始推理路径开始，然后通过Reflection机制对其进行评估和完善。在每个反思阶段之后，...……更多

2024-11-08 09:43:00太贵,推理,进化,提示,能力,方法

首个o1复现开源RL框架OpenR来了，UCL、上交等高校联

...学（广州）、西湖大学联合开源了首个类 o1 全链条训练框架「OpenR」，一个开源代码库，帮助用户快速实现构建自己的复杂推断模型。整个项目由 UCL 汪军教授发起和指导，实验主要由上海交大团队完成。我们介绍了 OpenR，首...……更多

2024-10-15 09:56:00框架,团队,联合,模型,过程,步骤

罗格斯大学团队提出思想链概念，提高大模型的算数推理能力

...提示设计的标准化方法。借助 CoT，人们现在拥有了一个框架来创建更有效的提示，从而可以完成复杂的推理任务。而这种增强解数学题的能力，能帮助用户更好地解数学题。此外，CoT 还可以通过搜索引擎理解和处理多步骤查...……更多

2024-03-15 10:41:00罗格,罗格斯,推理,模型,团队,概念

Meta祭出三篇最详尽Llama微调指南！千字长文，0基础小

...的特点，应该尝试一种方法，或者两种方法。根据本文的框架，你可以提出以下问题，以确定微调或 RAG（或两者）是否适用：- 你的应用程序需要外部知识吗？微调通常对注入新知识没什么帮助 - 你的应用程序是否需要自定义...……更多

2024-08-27 12:03:00小白,长文,千字,基础,指南,训练

苹果AI版iOS首日火爆：聊天秒变高情商，大模型成最强嘴替

...练过程英伟达含量为0模型的训练通过自家基于JAX的AXLearn框架进行，并采用了张量并行、流水并行等策略。硬件则采用的是谷歌TPU，其中云侧用了8192颗TPUv4芯片，端侧用了2048颗TPUv5p芯片，总之英伟达含量为0。数据则主要来源于...……更多

2024-07-31 09:39:00情商,火爆,模型,苹果,模型,苹果

OpenAI超级对齐团队遗作：两个大模型博弈一番，输出更好懂

...为「Prover-Verifier Games（证明者 - 验证者博弈）」的博弈论框架。该框架由两个相互竞争的学习者组成：一个可信的验证者（Verifier）网络试图选择正确的答案，另一个更强大但不可信的证明者（Prover）网络试图说服验证者接受特...……更多

2024-07-19 09:45:00遗作,输出,模型,团队,两个,模型

全模态对齐框架align-anything来啦：实现跨模态指

...京大学一支团队迅速跟进，用自研的全球首个全模态对齐框架「Align Anything」对 Llama 3.2 进行了微调，表现出了比 Meta 微调的 Llama-3.2-11B-Vision-Instruct 更强的对齐性与指令跟随性。为进一步促进社区的多模态对齐研究，日前，该...……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据