• 我的订阅
  • 科技

MIT最新研究:多个AI协作有助提高大模型推理能力和准确性

类别:科技 发布时间:2023-09-20 13:42:00 来源:澎湃新闻

·麻省理工学院计算机科学与人工智能实验室(CSAIL)研究团队发现,多个语言模型协同工作胜过单一模型,多个AI协作有助于提高大型语言模型的推理能力和事实准确性。

·每个语言模型都生成对给定问题的回答,然后整合来自其他代理的反馈,以更新自己的回应。最终,多个模型的解决方案通过投票达成一致的最终输出。这一过程有点像小组讨论。

MIT最新研究:多个AI协作有助提高大模型推理能力和准确性

一种新颖的方法允许多种语言模型进行协作,经过多轮辩论,最终得出统一且精确的响应。

图片来源:Alex Shipps/MIT CSAIL,来自Midjourney

当地时间9月18日,麻省理工学院计算机科学与人工智能实验室(CSAIL)的团队在其官网更新了一项研究:发现多个语言模型协同工作胜过单一模型,多个AI协作有助于提高大型语言模型的推理能力和事实准确性。

俗话说“三个臭皮匠,顶个诸葛亮”。简单而言,这项研究利用多个AI系统互相协作,以协商、辩论的方式以达成对给定问题的最佳答案。这种方法提高了大语言模型对事实数据的依从性和改进决策的能力。

大型语言模型(LLM)长期存在的问题之一是,其生成的回答不一致,可能有不准确和错误的推理。而新方法允许每个智能体(agent)积极评估其他智能体的回答,并利用这些集体反馈来完善自己的回答。

这一过程包括多轮的回应生成和批判,每个语言模型都生成对给定问题的回答,然后整合来自其他代理的反馈,以更新自己的回应。最终,多个模型的解决方案通过投票达成一致的最终输出。这一过程有点像小组讨论,个体一起努力达成一致和合理的结论。

这一技术的一个显著优点在于,它可以无缝应用于现有的“黑匣子”模型(指难以知晓其内部运行过程),因为这个方法基于生成出的文本,而无需明晰其内部工作原理。CSAIL团队表示,这种简化可以帮助研究人员和开发者改进各种语言模型输出的一致性和事实准确性。

“我们不仅仅依赖于单一的AI模型来提供答案,相反,我们让众多的AI模型参与,每个模型都带来独特的见解以解决问题。尽管它们的初始回应可能显得简单或包含错误,但这些模型可以通过审查其同行提供的回应来改进和提高自己的回答。”麻省理工学院电气工程和计算机科学博士生、CSAIL附属成员以及论文的首席作者之一Yilun Du说道。

根据Yilun Du的个人主页,他目前正在攻读博士,此前已获得麻省理工学院学士学位,曾在ChatGPT的开发机构OpenAI担任研究员,在Facebook人工智能研究所(FAIR)和Google Deepmind担任实习生和访问研究员,并在国际生物奥林匹克竞赛中获得金牌。有趣的是,他曾在TED发表题为《为什么机器人需要梦想》的演讲。

“当这些AI模型参与对话和思考时,它们更能够识别和纠正问题,增强解决问题的能力,并更好地验证其回应的准确性。基本上,我们正在创造一种迫使它们深入问题核心的环境。这与单一的孤立的AI模型形成对比,后者经常复制互联网上找到的内容。然而,我们的方法积极刺激了AI模型制定更准确和全面解决方案的能力。”Yilun Du说。

此项研究涉及数学问题的解决,包括小学和初高中的数学问题,并通过多智能体辩论显著提高了性能。该方法还可以帮助解决经常困扰大语言模型的“幻觉”问题。通过设计这样的环境,智能体之间可以批判对方的回应,更有动力避免随机生成信息并优先考虑事实准确性。

除了应用于语言模型,该方法还可以用于整合具有专门能力的不同模型。通过建立一个多智能体相互交互和辩论的去中心化系统,它们可以潜在地在语音、视频或文本等各种模式下提高问题解决能力。不过研究人员表示,当处理非常长的上下文时,现有的语言模型可能面临挑战,批判能力可能表现得不如预期。

此外,多智能体辩论形式尚未包括有助于智能集体决策的更复杂形式的讨论。据研究团队透露,这正将是未来探索的关键领域。推进这项技术可能需要更深入地了解人类辩论和讨论背后的计算基础,并使用这些模型来增强或补充现有的大语言模型。

Yilun Du认为,随着研究人员继续完善和探索这种方法,人们可以更接近一个未来,在这个未来,语言模型不仅模仿人类语言,还表现出更系统化和可靠的思维,开创语言理解和应用的新时代。“利用审议过程来改善模型的整体输出非常有道理,这是从思维链的提示中迈出的一大步。”加利福尼亚大学伯克利分校电气工程与计算机科学系副教授、未参与该项工作的安卡·德拉甘说,“我对接下来的发展感到兴奋。当人们看到辩论时,他们是否能更好地判断大语言模型的答案?人们是否通过自己与大语言模型辩论来得出更好的答案?是否可以使用类似的思想来帮助用户审查大语言模型给出的答案,以得出更好的答案?”

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-09-20 18:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻
...基础上进行任务分解和规划,给出更丰富、更具时效性和准确性的答案。而且,用户可以在简洁、标准、深入和多模型协作这4种「AI工作流」中任选其一,得到自己想要的答案模式。 比如,
2024-09-21 09:50:00
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
...设计不仅提高了检索效率,也显著增强了模型生成内容的准确性。为评估OmniSearch,研究团队构建了全新Dyn-VQA数据集
2024-12-05 09:45:00
腾讯企点智能客服、营销分析全新升级,助力企业实现智慧客户管理和营销分析
...的海量信息,最终通过模型生成拟人化答案,提高回答的准确性和多样性。在人工辅助方面,智能客服能够高效提升人机协作效率。它突破了传统智能客服人工介入流程冗长的问题。在人工介入时,
2023-06-21 14:00:00
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
...数据集评估,有效提高了复杂时间序列任务的推理能力和准确性。实验结果表明,TS-Reasoner在金融决策、能源负载预测和因果关系挖掘等多个任务上,相较于现有方法具有显著的性能
2024-10-29 09:55:00
整合长期记忆,AI实现自我进化,探索大模型这一可能性
...的推理任务时自我反思并纠正错误的推理路径,从而提高准确性和效率。这种动态的自我调整能力将大大提升模型的个性化能力和长期进化潜力。通过长期记忆,模型不仅可以从短期记忆中学习,还
2024-10-29 09:55:00
...考,思考可能出现的每一种假设,表现出更强的严谨性和准确性。代码能力上,星火X1不仅提高了代码生成的准确率,对生成代码逻辑理解也进一步提升,能够应对更复杂的编程需求,思考问题的
2025-04-22 16:50:00
超级干货丨360AI搜索如何准确识别用户意图?
...考你说过的话,再逐步帮你去解答这些问题,得到的答案准确性会远远高于通过快思考方式得到的答案。今年7月底360AI搜索上线了慢思考能力,通过提升大模型的深度思考能力,让模糊问题
2024-11-05 09:45:00
科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%
...语言模型的预测是否经过校准,研究人员检查了置信度与准确性之间的关联性,结果发现与人类专家一样,所有大型语言模型都展现出准确性和置信度之间的正相关性。当大型语言模型对自己的决策
2024-12-09 09:50:00
文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!
...mpt)来提高模型输出与人类偏好的对齐程度,提升问答的准确性。DocChain:文档处理的智慧引擎为深度赋能企业用户,浩鲸科技依托先进的鲸智文档大模型,匠心打造了多模态文档工
2024-09-26 13:36:00
更多关于科技的资讯:
这个周末,朋友圈彻底被KPL总决赛刷屏了。这场赛事创下12秒售罄门票、6.2万人现场观赛的亮眼成绩,一举打破单场电竞赛事观众人数最多的吉尼斯世界纪录
2025-11-10 16:46:00
重获森林呼吸:“半亩森林”在杭发布新品,开启环境益生菌空气净化新纪元
2025年11月8日,杭州梦想小镇络绎科学社区迎来了一场充满科技想象与生活温度的创新体验活动——体验π|环境益生菌,开启“森林呼吸”新纪元
2025-11-10 15:40:00
武当山智慧旅游平台升级 多语种 AI 客服暖心上线
近日,武当山智慧旅游平台迎来重要升级,智能 AI 客服多语种功能正式上线,为全球游客打造无障碍智慧游览新体验,也标志着景区公共服务国际化水平迈上新台阶
2025-11-10 15:31:00
“双11”火到海外,全球网民纷纷加入抢购浪潮厦门空港迎来跨境电商出口高峰东南网11月10日讯(海峡导报记者孙春燕)一年一度的购物狂欢节——“双11”正在如火如荼的进行中
2025-11-10 11:19:00
中国银行与中国银联、华住集团举办提振消费主题签约活动
11月6日,中国银行携手中国银联、华住集团,在商务部、文旅部、人民银行上海总部、上海市政府的共同见证下,成功举办“聚力进博新引擎
2025-11-10 11:26:00
澳柯玛推出2026年风冷无霜、立式多系列冷柜新品
鲁网11月10日讯近日,“双擎智控,深冷领鲜”——澳柯玛2026年制冷营销峰会在青岛隆重召开。来自全国各地的合作伙伴、渠道商及主流媒体代表齐聚一堂
2025-11-10 11:31:00
赛德斯耳机产品线深度盘点:以精准科技满足全场景音频需求
在竞争激烈的音频市场,一个品牌能否立足,关键在于其产品线能否精准覆盖多元化的用户场景。游戏耳机品牌赛德斯(SADES)通过其精心布局的耳机产品矩阵
2025-11-10 12:08:00
神都镜像照见数字文明 作家维摩眼中的“河洛智慧”
大河网讯(记者 赵檬)在千年古都洛阳的深厚文明积淀与瞬息万变的互联网浪潮之间,一场跨越时空的对话正在展开。11月5日,作家维摩参加了2025河南省网络文明大会
2025-11-10 12:39:00
2025青岛虚拟现实创新大会|专访自然语义(青岛)科技有限公司CMO薛铮:以轻量化“语义桥梁”助推虚拟现实产业智能升级
鲁网11月10日讯 (记者 尤奕钧 刘晓伟)人工智能技术快速发展,离不开其背后的核心驱动力——自然语言处理(NLP),NLP依赖于算法和模型分析
2025-11-10 11:34:00
卖场变生活场能否“赢”客?解码五缘湾商圈零售新生态
京东MALL的DIY电竞区人气高。(京东MALL 供图)五缘湾天虹超市将闽南古早味引进精品区。(记者 庄筱婧 摄)五缘湾天虹超市将“烟火市集”升级为顾客的“星级家庭后厨”
2025-11-10 08:13:00
在2025年世界互联网大会乌镇峰会主论坛上,国家移民局、国家网信办联合发布外国人资讯服务App——SinoGuide。SinoGuide旨在帮助外国人更好融入并体验中国丰富便捷的数字化服务
2025-11-10 09:49:00
本报讯(全媒体记者黄祥晟、罗晋粤)11月8日,在2025年世界互联网大会乌镇峰会“互联网之光”博览会现场,从算力基建到智能产品
2025-11-10 07:03:00
11月7日从太原福莱瑞达科技有限公司获悉,2025年度“机械工业科学技术奖”获奖名单日前公示,福莱瑞达与太原科技大学联合研发的“多形态货物的智能抓取与装车技术及装备”项目
2025-11-10 07:19:00
江苏南京:以“智”赋“能”,南京AI军团点亮智能制造
建模降本、“鹰眼”护安全、机器人夜检地铁……以“智”赋“能”,南京AI军团点亮智能制造□南京日报/紫金山新闻记者 徐宁周容璇 实习生黄倩以“激光扫描+AI建模”
2025-11-10 08:00:00
□魏赛男从停产到翻红,一口锅的逆袭之路,恰是对“诚信为本”商业准则的生动注解。近日,浙江温州一口使用近30年依然完好如初的不锈钢炒锅
2025-11-10 08:00:00