• 我的订阅
  • 科技

MIT最新研究:多个AI协作有助提高大模型推理能力和准确性

类别:科技 发布时间:2023-09-20 13:42:00 来源:澎湃新闻

·麻省理工学院计算机科学与人工智能实验室(CSAIL)研究团队发现,多个语言模型协同工作胜过单一模型,多个AI协作有助于提高大型语言模型的推理能力和事实准确性。

·每个语言模型都生成对给定问题的回答,然后整合来自其他代理的反馈,以更新自己的回应。最终,多个模型的解决方案通过投票达成一致的最终输出。这一过程有点像小组讨论。

MIT最新研究:多个AI协作有助提高大模型推理能力和准确性

一种新颖的方法允许多种语言模型进行协作,经过多轮辩论,最终得出统一且精确的响应。

图片来源:Alex Shipps/MIT CSAIL,来自Midjourney

当地时间9月18日,麻省理工学院计算机科学与人工智能实验室(CSAIL)的团队在其官网更新了一项研究:发现多个语言模型协同工作胜过单一模型,多个AI协作有助于提高大型语言模型的推理能力和事实准确性。

俗话说“三个臭皮匠,顶个诸葛亮”。简单而言,这项研究利用多个AI系统互相协作,以协商、辩论的方式以达成对给定问题的最佳答案。这种方法提高了大语言模型对事实数据的依从性和改进决策的能力。

大型语言模型(LLM)长期存在的问题之一是,其生成的回答不一致,可能有不准确和错误的推理。而新方法允许每个智能体(agent)积极评估其他智能体的回答,并利用这些集体反馈来完善自己的回答。

这一过程包括多轮的回应生成和批判,每个语言模型都生成对给定问题的回答,然后整合来自其他代理的反馈,以更新自己的回应。最终,多个模型的解决方案通过投票达成一致的最终输出。这一过程有点像小组讨论,个体一起努力达成一致和合理的结论。

这一技术的一个显著优点在于,它可以无缝应用于现有的“黑匣子”模型(指难以知晓其内部运行过程),因为这个方法基于生成出的文本,而无需明晰其内部工作原理。CSAIL团队表示,这种简化可以帮助研究人员和开发者改进各种语言模型输出的一致性和事实准确性。

“我们不仅仅依赖于单一的AI模型来提供答案,相反,我们让众多的AI模型参与,每个模型都带来独特的见解以解决问题。尽管它们的初始回应可能显得简单或包含错误,但这些模型可以通过审查其同行提供的回应来改进和提高自己的回答。”麻省理工学院电气工程和计算机科学博士生、CSAIL附属成员以及论文的首席作者之一Yilun Du说道。

根据Yilun Du的个人主页,他目前正在攻读博士,此前已获得麻省理工学院学士学位,曾在ChatGPT的开发机构OpenAI担任研究员,在Facebook人工智能研究所(FAIR)和Google Deepmind担任实习生和访问研究员,并在国际生物奥林匹克竞赛中获得金牌。有趣的是,他曾在TED发表题为《为什么机器人需要梦想》的演讲。

“当这些AI模型参与对话和思考时,它们更能够识别和纠正问题,增强解决问题的能力,并更好地验证其回应的准确性。基本上,我们正在创造一种迫使它们深入问题核心的环境。这与单一的孤立的AI模型形成对比,后者经常复制互联网上找到的内容。然而,我们的方法积极刺激了AI模型制定更准确和全面解决方案的能力。”Yilun Du说。

此项研究涉及数学问题的解决,包括小学和初高中的数学问题,并通过多智能体辩论显著提高了性能。该方法还可以帮助解决经常困扰大语言模型的“幻觉”问题。通过设计这样的环境,智能体之间可以批判对方的回应,更有动力避免随机生成信息并优先考虑事实准确性。

除了应用于语言模型,该方法还可以用于整合具有专门能力的不同模型。通过建立一个多智能体相互交互和辩论的去中心化系统,它们可以潜在地在语音、视频或文本等各种模式下提高问题解决能力。不过研究人员表示,当处理非常长的上下文时,现有的语言模型可能面临挑战,批判能力可能表现得不如预期。

此外,多智能体辩论形式尚未包括有助于智能集体决策的更复杂形式的讨论。据研究团队透露,这正将是未来探索的关键领域。推进这项技术可能需要更深入地了解人类辩论和讨论背后的计算基础,并使用这些模型来增强或补充现有的大语言模型。

Yilun Du认为,随着研究人员继续完善和探索这种方法,人们可以更接近一个未来,在这个未来,语言模型不仅模仿人类语言,还表现出更系统化和可靠的思维,开创语言理解和应用的新时代。“利用审议过程来改善模型的整体输出非常有道理,这是从思维链的提示中迈出的一大步。”加利福尼亚大学伯克利分校电气工程与计算机科学系副教授、未参与该项工作的安卡·德拉甘说,“我对接下来的发展感到兴奋。当人们看到辩论时,他们是否能更好地判断大语言模型的答案?人们是否通过自己与大语言模型辩论来得出更好的答案?是否可以使用类似的思想来帮助用户审查大语言模型给出的答案,以得出更好的答案?”

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-09-20 18:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻
...基础上进行任务分解和规划,给出更丰富、更具时效性和准确性的答案。而且,用户可以在简洁、标准、深入和多模型协作这4种「AI工作流」中任选其一,得到自己想要的答案模式。 比如,
2024-09-21 09:50:00
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
...设计不仅提高了检索效率,也显著增强了模型生成内容的准确性。为评估OmniSearch,研究团队构建了全新Dyn-VQA数据集
2024-12-05 09:45:00
腾讯企点智能客服、营销分析全新升级,助力企业实现智慧客户管理和营销分析
...的海量信息,最终通过模型生成拟人化答案,提高回答的准确性和多样性。在人工辅助方面,智能客服能够高效提升人机协作效率。它突破了传统智能客服人工介入流程冗长的问题。在人工介入时,
2023-06-21 14:00:00
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
...数据集评估,有效提高了复杂时间序列任务的推理能力和准确性。实验结果表明,TS-Reasoner在金融决策、能源负载预测和因果关系挖掘等多个任务上,相较于现有方法具有显著的性能
2024-10-29 09:55:00
整合长期记忆,AI实现自我进化,探索大模型这一可能性
...的推理任务时自我反思并纠正错误的推理路径,从而提高准确性和效率。这种动态的自我调整能力将大大提升模型的个性化能力和长期进化潜力。通过长期记忆,模型不仅可以从短期记忆中学习,还
2024-10-29 09:55:00
...考,思考可能出现的每一种假设,表现出更强的严谨性和准确性。代码能力上,星火X1不仅提高了代码生成的准确率,对生成代码逻辑理解也进一步提升,能够应对更复杂的编程需求,思考问题的
2025-04-22 16:50:00
超级干货丨360AI搜索如何准确识别用户意图?
...考你说过的话,再逐步帮你去解答这些问题,得到的答案准确性会远远高于通过快思考方式得到的答案。今年7月底360AI搜索上线了慢思考能力,通过提升大模型的深度思考能力,让模糊问题
2024-11-05 09:45:00
科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%
...语言模型的预测是否经过校准,研究人员检查了置信度与准确性之间的关联性,结果发现与人类专家一样,所有大型语言模型都展现出准确性和置信度之间的正相关性。当大型语言模型对自己的决策
2024-12-09 09:50:00
文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!
...mpt)来提高模型输出与人类偏好的对齐程度,提升问答的准确性。DocChain:文档处理的智慧引擎为深度赋能企业用户,浩鲸科技依托先进的鲸智文档大模型,匠心打造了多模态文档工
2024-09-26 13:36:00
更多关于科技的资讯:
高德地图2025全面AI化:3句话,最快5分钟AI生成个性化语音包
近日,国民APP高德地图正式发布其全面AI化新版“高德地图2025”,成为全球首个基于地图的10亿级AI Native原生应用
2025-08-09 16:47:00
超多优质好物!快来青岛西海岸新区金沙滩啤酒城“寻宝逛GAI”
鲁网8月9日讯第35届青岛国际啤酒节在金沙滩啤酒城狂欢正酣,这里不只有泡沫四溢的酒杯与欢呼的人群,更藏着一座能打包带走的“快乐宝藏库”
2025-08-09 11:41:00
剪映专业版助力创作提效,90后四川小伙靠剪辑月入10万
过去几年,四川小伙王星程每天坚持分享自己的剪辑日常。得益于剪映专业版的方便易上手,“半路出家”的他很快就摸索出一套剪辑窍门
2025-08-08 15:27:00
天津,这座古老而又现代的城市,多元文化在建筑中显现、沉淀、交融。近年来,天津着力讲好建筑承载的故事,不仅使老建筑“重获新生”,更展现了天津厚重的人文底蕴与独特的城市魅力。
2025-08-09 07:44:00
温特纳科技:为压力扫描阀和气动探针提供一站式校准服务
从航空航天到汽车动力,从风洞实验到无人机飞行测试,精确的流场测量和压力数据采集是确保产品设计和研发进度的重要保障。很多科研工作者在采购压力扫描阀和气动探针后
2025-08-08 15:27:00
智能饮品革命:东方慧影如何用“零成本”方案破解餐饮行业人工困局
一、餐饮行业的成本之痛,政策改变迫使餐饮商家做出调整截至2025年,餐饮行业人工成本高达32.7%,较疫情前上升了8%
2025-08-08 15:27:00
官方数据首度公开!TikTok Shop跨境日本、欧洲五国新市场大促双爆发
近日,TikTok Shop新市场捷报频传!日本站点开放仅一个月,首场大促便斩获“开门红”;与此同时,欧洲五国德法意西
2025-08-08 15:27:00
当连锁药房遇上“好老板”,通联支付助力“为了你”健康药房升级收银服务
药店买药免排队、秒支付!近日,通联支付与当地邮政联合,为云南“为了你健康药房”上线“好老板”轻应用,助力连锁药店升级一站式智慧收银平台
2025-08-08 15:27:00
追求健康美食的你,是否渴望一种便捷烹饪方式?空气炸锅正是你的理想选择!它利用高速循环热风,无需大量油脂就能烹饪出酥脆可口的食物
2025-08-08 15:27:00
格力高上海工厂探访:本土化研发与智能智造驱动市场领跑
近日,格力高首次向媒体开放其位于上海的智能化生产基地,揭秘这家百年食品企业如何通过“本土化研发+智能智造”双轮驱动,实现从消费者需求洞察到产品快速落地的高效转化
2025-08-08 15:27:00
效率跃升18倍!曙光超智融合引领生命科学新范式
当前,海量生物数据的处理与分析能力已成为制约行业发展的关键瓶颈。近日,依托曙光超智融合技术建设的华东某全国产计算中心,与单细胞测序领域代表性企业墨卓生物达成战略合作
2025-08-08 15:27:00
传奇再启:赛德斯签约品牌强国新品即将来袭
2025年8月5日,中国知名电竞音频品牌赛德斯(SADES)在广东深圳正式签约“品牌强国·自主品牌优选工程”,成功入选该国家级项目成员单位
2025-08-08 15:27:00
餐饮行业在服务消费中地位举足轻重。当下的中国餐饮行业正在经历从“速度增长”到“效率竞争”的结构性转变。根据中国烹饪协会发布的《2024年全国餐饮业发展回顾与2025年展望》(以下简称“报告”)数据显示
2025-08-08 15:27:00
名众集团首创的基因枪无创草本抗衰技术,历经7年研发60万例临床,再次突破
名众集团自2018年自主研发首创了“四维形气美学”“草本0创还原术”后,历经7年研发60万例临床,再次实现重大技术突破
2025-08-08 15:27:00
视源股份投屏黑科技:3秒丝滑连接,比掏手机还快!
会议室的桌面上总缠着一堆线缆 ——VGA 线、DP 线、HDMI 线像乱麻一样,某企业高管曾因笔记本找不到匹配接口,让二十多位参会者等了十来分钟
2025-08-08 15:32:00