• 我的订阅
  • 科技

MIT最新研究:多个AI协作有助提高大模型推理能力和准确性

类别:科技 发布时间:2023-09-20 13:42:00 来源:澎湃新闻

·麻省理工学院计算机科学与人工智能实验室(CSAIL)研究团队发现,多个语言模型协同工作胜过单一模型,多个AI协作有助于提高大型语言模型的推理能力和事实准确性。

·每个语言模型都生成对给定问题的回答,然后整合来自其他代理的反馈,以更新自己的回应。最终,多个模型的解决方案通过投票达成一致的最终输出。这一过程有点像小组讨论。

MIT最新研究:多个AI协作有助提高大模型推理能力和准确性

一种新颖的方法允许多种语言模型进行协作,经过多轮辩论,最终得出统一且精确的响应。

图片来源:Alex Shipps/MIT CSAIL,来自Midjourney

当地时间9月18日,麻省理工学院计算机科学与人工智能实验室(CSAIL)的团队在其官网更新了一项研究:发现多个语言模型协同工作胜过单一模型,多个AI协作有助于提高大型语言模型的推理能力和事实准确性。

俗话说“三个臭皮匠,顶个诸葛亮”。简单而言,这项研究利用多个AI系统互相协作,以协商、辩论的方式以达成对给定问题的最佳答案。这种方法提高了大语言模型对事实数据的依从性和改进决策的能力。

大型语言模型(LLM)长期存在的问题之一是,其生成的回答不一致,可能有不准确和错误的推理。而新方法允许每个智能体(agent)积极评估其他智能体的回答,并利用这些集体反馈来完善自己的回答。

这一过程包括多轮的回应生成和批判,每个语言模型都生成对给定问题的回答,然后整合来自其他代理的反馈,以更新自己的回应。最终,多个模型的解决方案通过投票达成一致的最终输出。这一过程有点像小组讨论,个体一起努力达成一致和合理的结论。

这一技术的一个显著优点在于,它可以无缝应用于现有的“黑匣子”模型(指难以知晓其内部运行过程),因为这个方法基于生成出的文本,而无需明晰其内部工作原理。CSAIL团队表示,这种简化可以帮助研究人员和开发者改进各种语言模型输出的一致性和事实准确性。

“我们不仅仅依赖于单一的AI模型来提供答案,相反,我们让众多的AI模型参与,每个模型都带来独特的见解以解决问题。尽管它们的初始回应可能显得简单或包含错误,但这些模型可以通过审查其同行提供的回应来改进和提高自己的回答。”麻省理工学院电气工程和计算机科学博士生、CSAIL附属成员以及论文的首席作者之一Yilun Du说道。

根据Yilun Du的个人主页,他目前正在攻读博士,此前已获得麻省理工学院学士学位,曾在ChatGPT的开发机构OpenAI担任研究员,在Facebook人工智能研究所(FAIR)和Google Deepmind担任实习生和访问研究员,并在国际生物奥林匹克竞赛中获得金牌。有趣的是,他曾在TED发表题为《为什么机器人需要梦想》的演讲。

“当这些AI模型参与对话和思考时,它们更能够识别和纠正问题,增强解决问题的能力,并更好地验证其回应的准确性。基本上,我们正在创造一种迫使它们深入问题核心的环境。这与单一的孤立的AI模型形成对比,后者经常复制互联网上找到的内容。然而,我们的方法积极刺激了AI模型制定更准确和全面解决方案的能力。”Yilun Du说。

此项研究涉及数学问题的解决,包括小学和初高中的数学问题,并通过多智能体辩论显著提高了性能。该方法还可以帮助解决经常困扰大语言模型的“幻觉”问题。通过设计这样的环境,智能体之间可以批判对方的回应,更有动力避免随机生成信息并优先考虑事实准确性。

除了应用于语言模型,该方法还可以用于整合具有专门能力的不同模型。通过建立一个多智能体相互交互和辩论的去中心化系统,它们可以潜在地在语音、视频或文本等各种模式下提高问题解决能力。不过研究人员表示,当处理非常长的上下文时,现有的语言模型可能面临挑战,批判能力可能表现得不如预期。

此外,多智能体辩论形式尚未包括有助于智能集体决策的更复杂形式的讨论。据研究团队透露,这正将是未来探索的关键领域。推进这项技术可能需要更深入地了解人类辩论和讨论背后的计算基础,并使用这些模型来增强或补充现有的大语言模型。

Yilun Du认为,随着研究人员继续完善和探索这种方法,人们可以更接近一个未来,在这个未来,语言模型不仅模仿人类语言,还表现出更系统化和可靠的思维,开创语言理解和应用的新时代。“利用审议过程来改善模型的整体输出非常有道理,这是从思维链的提示中迈出的一大步。”加利福尼亚大学伯克利分校电气工程与计算机科学系副教授、未参与该项工作的安卡·德拉甘说,“我对接下来的发展感到兴奋。当人们看到辩论时,他们是否能更好地判断大语言模型的答案?人们是否通过自己与大语言模型辩论来得出更好的答案?是否可以使用类似的思想来帮助用户审查大语言模型给出的答案,以得出更好的答案?”

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-09-20 18:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻
...基础上进行任务分解和规划,给出更丰富、更具时效性和准确性的答案。而且,用户可以在简洁、标准、深入和多模型协作这4种「AI工作流」中任选其一,得到自己想要的答案模式。 比如,
2024-09-21 09:50:00
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
...设计不仅提高了检索效率,也显著增强了模型生成内容的准确性。为评估OmniSearch,研究团队构建了全新Dyn-VQA数据集
2024-12-05 09:45:00
腾讯企点智能客服、营销分析全新升级,助力企业实现智慧客户管理和营销分析
...的海量信息,最终通过模型生成拟人化答案,提高回答的准确性和多样性。在人工辅助方面,智能客服能够高效提升人机协作效率。它突破了传统智能客服人工介入流程冗长的问题。在人工介入时,
2023-06-21 14:00:00
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
...数据集评估,有效提高了复杂时间序列任务的推理能力和准确性。实验结果表明,TS-Reasoner在金融决策、能源负载预测和因果关系挖掘等多个任务上,相较于现有方法具有显著的性能
2024-10-29 09:55:00
整合长期记忆,AI实现自我进化,探索大模型这一可能性
...的推理任务时自我反思并纠正错误的推理路径,从而提高准确性和效率。这种动态的自我调整能力将大大提升模型的个性化能力和长期进化潜力。通过长期记忆,模型不仅可以从短期记忆中学习,还
2024-10-29 09:55:00
...考,思考可能出现的每一种假设,表现出更强的严谨性和准确性。代码能力上,星火X1不仅提高了代码生成的准确率,对生成代码逻辑理解也进一步提升,能够应对更复杂的编程需求,思考问题的
2025-04-22 16:50:00
超级干货丨360AI搜索如何准确识别用户意图?
...考你说过的话,再逐步帮你去解答这些问题,得到的答案准确性会远远高于通过快思考方式得到的答案。今年7月底360AI搜索上线了慢思考能力,通过提升大模型的深度思考能力,让模糊问题
2024-11-05 09:45:00
科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%
...语言模型的预测是否经过校准,研究人员检查了置信度与准确性之间的关联性,结果发现与人类专家一样,所有大型语言模型都展现出准确性和置信度之间的正相关性。当大型语言模型对自己的决策
2024-12-09 09:50:00
文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!
...mpt)来提高模型输出与人类偏好的对齐程度,提升问答的准确性。DocChain:文档处理的智慧引擎为深度赋能企业用户,浩鲸科技依托先进的鲸智文档大模型,匠心打造了多模态文档工
2024-09-26 13:36:00
更多关于科技的资讯:
日常生活中,电梯是高层楼宇里不可或缺的垂直交通工具。超过80%的电梯在发生故障前都会释放“求救信号”。这些容易被忽视的异常现象
2025-11-08 05:24:00
进博会上,南京“买手团”大逛“世界超市”全球直采,优品好物装进“购物车”□南京日报/紫金山新闻记者 黄琳燕11月7日,第八届进博会7
2025-11-08 09:31:00
八赴进博彰显深耕决心!凯克携 77 年加拿大真洋牌伟博天然,以全维优势点亮健康新生态
2025 年第八届中国国际进口博览会(进博会)盛大启幕,凯克集团再度携手 webbernaturals 伟博天然荣耀参展
2025-11-08 14:40:00
双11调研:家庭日用类消费成65.89%人大促固定选择,京东成消费者下单日百和服务首选平台
双11已步入第十七个年头,消费者的心态与行为模式也发生了深刻变化。越来越多的中国家庭将双11视为进行生活规划与品质升级的关键节点
2025-11-08 14:42:00
从巴黎歌剧院到家庭客厅,海信激光电视携手 DEVIALET 帝瓦雷开启“家庭影院新世代”
法国当地时间11月4日,全球显示领军品牌海信与知名高端音响品牌 DEVIALET 帝瓦雷在巴黎举办了一场科技与艺术的跨界盛宴
2025-11-08 14:43:00
双11囤货别忘囤“快乐”!华为应用解锁花式娱乐新体验
这个双11,你的购物车是不是已经塞满了心仪的好物?从智能家电到秋冬新装,从母婴用品到家居日用。在忙着为全家人囤货的同时
2025-11-08 14:44:00
在乌镇遇见更懂你的AI,科大讯飞携星火大模型及全场景应用亮相2025世界互联网大会
当千年舟楫摇橹的乌镇,再次成为全球互联网的焦点,一场关于未来的想象正在这里变为现实。2025年11月6日至9日,以“AI共生
2025-11-08 14:44:00
工厂数智化升级,安全建设别再原地踏步!深信服安全托管常态守护
某全球知名的智能制造企业拥有多个生产基地,高智能化产线7*24H运转,而随之而来的安全挑战,却成了企业信息部门“心病”
2025-11-08 14:44:00
双11“精神囤货”指南:华为音乐、视频、阅读,承包你的快乐源泉
又是一年双十一,当购物车被各种生活好物填满,你是否想过,也该为自己的休闲娱乐体验升个级?无论是上下班通勤路上、午休小憩时刻
2025-11-08 14:44:00
11月7日,在2025年世界互联网大会“互联网之光”博览会现场,两位机器人乐手用灵巧的双手演奏钢琴,引人驻足。“我很想去拍拍他们手的细节
2025-11-08 15:52:00
蚂蚁集团CEO韩歆毅:AQ承载蚂蚁健康新使命,让看病更简单、生活更健康
11月8日,乌镇峰会上,蚂蚁集团CEO韩歆毅作为企业代表分享了在AI医疗健康领域的思考与实践。此前,继旗下AI健康应用AQ月活用户突破千万后
2025-11-08 17:00:00
近日,2025福布斯中国・最具影响力华人精英TOP100榜单公布,山西美锦能源股份有限公司董事长姚锦龙上榜。据悉,本届榜单从“产业重塑者”“价值创造者”“趋势勘探者”三大维度
2025-11-08 18:06:00
冲刺四季度 打好收官战丨湖北胜龙机械:优产线强技术 订单实现最大增长
四季度是定全年、保全局的收官季,十堰各工业企业开足马力忙生产、赶订单。湖北胜龙机械有限公司通过产线优化、技术升级、质量提升
2025-11-08 20:36:00
潮玩的本质是“快乐经济”,而非“收割经济”。近日,潮玩品牌泡泡玛特在直播中上演了意外一幕。工作人员手持售价79元的DIMOO盲盒挂链
2025-11-09 01:14:00
厦大机器人项目获“挑战杯”特等奖聚焦提升双臂机器人的自主操作能力东南网11月7日讯 (海峡导报记者 郑薇 通讯员 郭煜新)11月3日
2025-11-09 03:08:00