• 我的订阅
  • 科技

AI 的“心智理论”难题:Meta ExploreToM 探索突破之路

类别:科技 发布时间:2024-12-21 09:27:00 来源:IT之家

IT之家 12 月 20 日消息,Meta 公司携手华盛顿大学和卡内基梅隆大学,组建科研团队,合作开发了 ExploreToM 框架,旨在更有效地评估和训练大语言模型(LLM)的心智理论(Theory of Mind,ToM)能力。

心智理论

心智理论(Theory of Mind,ToM)是人类社会智能的基础之一,能让我们能够理解他人的想法、意图和信念。这种认知能力对于有效的沟通和协作至关重要,是复杂社交互动的支柱。

让 AI 也具备 ToM 能力,对于创建能与人类无缝互动的智能体至关重要,只是当前大型语言模型(LLM)在 ToM 方面仍面临巨大挑战。

现有的基准通常缺乏复杂性和多样性,导致高估模型能力。例如,许多基准测试基于简单的预定义场景,无法复制人类用来推断心理状态的复杂推理。

ExploreToM 框架

ExploreToM 通过生成多样化、可扩展的对抗性数据集,为提升 AI 的 ToM 能力奠定了坚实基础。该研究强调了当前模型的局限性,以及高质量训练数据对于弥合这些差距的潜力。

AI 的“心智理论”难题:Meta ExploreToM 探索突破之路

在数据集方面,ExploreToM 利用 A* 搜索算法和特定领域语言生成多样化、高难度的测试数据集,模拟复杂的社会情景,挑战 LLM 的认知极限。

ExploreToM 与现有基准测试不同,通过创建对抗性故事场景,旨在揭示 LLM 在 ToM 推理中的盲点。

AI 的“心智理论”难题:Meta ExploreToM 探索突破之路

此外该框架还引入了非对称信念更新机制,可以模拟不同角色对同一情况持有不同观点的复杂社交互动。

主流模型测试效果

GPT-4o 和 Llama-3.1-70B 模型在 ExploreToM 数据集上的准确率分别只有 9% 和 0%,凸显了现有 LLM 在处理复杂 ToM 推理方面的不足。

在 ExploreToM 数据上进行微调后,模型在经典 ToMi 基准测试中的准确率提高了 27 个百分点,证明了该框架的有效性。

AI 的“心智理论”难题:Meta ExploreToM 探索突破之路

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-21 11:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

如何统一自然界四种基本作用力,是当今科学界面对的最大难题!
...无定论。至于引力,则更显得毫无头绪,还有漫长的探索之路。因此,说三种力已统一是不准确的。在人类早期,世界被简单地看作由金木水火土构成(东方观点)或由水、火、土、气组成(希腊观
2024-10-28 11:05:00
chatgpt背后模型被证实具有人类心智
ChatGPT原来是拥有心智的?!“原本认为是人类独有的心智理论(TheoryofMind,ToM),已经出现在ChatGPT背后的AI模型上
2023-02-12 23:46:00
人工智能助力科学发现之路
...自:人民日报海外版从工具到伙伴人工智能助力科学发现之路本报记者 刘 峣AI制图随着人工智能应用的日益广泛,人工智能赋能科学研究(AI for Science)近年来在全球迎来
2025-04-10 03:46:00
...》发表论文显示,在测试追踪他人心理状态能力——也称心智理论(Theory of Mind)的任务中,两类大语言模型(LLM)在特定情况下的表现与人类相似,甚至更好。心智理论对
2024-05-23 02:36:00
chatgpt版必应发飙,怒斥人类:放尊重些
...:额……这不就是我有时候的表现么……被证实具有人类心智其实对于网友们惊叹“太像人”这一点,斯坦福的一项研究早已对此做了证明
2023-02-15 14:56:00
济南大学教授胡晓农:探寻地下水的奥秘
...索的科研之旅从普渡大学到济南大学,胡晓农教授的科研之路跨越了半个地球。1996年,胡晓农教授在普渡大学获得博士学位,随后在美国佛罗里达州立大学担任终身教授,并成为喀斯特研究中
2024-10-14 11:39:00
智商超过99.9%人类,ChatGPT到底有多聪明?
...。那么,如今大火的ChatGPT是否具有与人类相当的智商与心智水平?Eka Roivainen是一名来自芬兰奥卢大学附属医院的评估心理学家
2023-04-14 12:00:00
烟台黄渤海新区深化文明实践AI工作室应用场景 专家走进两个社区“智”解民生难题
...既成为基层减负的“数字助手”,更化作服务群众的“暖心智库”,持续为新时代文明实践注入创新动能。
2025-03-31 11:00:00
...“定位方程”的核心在于解构消费者、企业家和管理者的心智,实现战略、战役和战术的协同统一。在消费者心智方面,“定位方程”强调深入洞察消费者的需求、偏好、价值观和购买行为等,挖掘
2025-02-26 15:35:00
更多关于科技的资讯:
8月28日晚,海尔智家发布2025半年报。其中,海尔空调线下市场份额达19.7%,同比提升1.2个百分点;线上份额为11
2025-09-02 21:19:00
三元食品2025年上半年净利润稳健增长,深化改革与经营优化成效显著
近日,三元股份(北京三元食品股份有限公司)公布2025年上半年财报。报告期内,实现营业收入33.31亿元,实现归母净利润1
2025-09-02 20:16:00
太重集团9月2日发布一则喜讯,国内首条3500毫米不锈钢中厚板生产线热试工作圆满成功。此次热试的核心支撑,正是太重自主研发的油膜轴承
2025-09-02 19:20:00
银座电器和谐店焕新启幕 携“金九月”引领区域家电消费升级
齐鲁晚报·齐鲁壹点 许昱洲作为深耕齐鲁家电零售数十年的标杆企业,银座电器凭借在智慧家电领域的前瞻布局与全场景服务优势,稳居山东家电零售行业“智慧消费领航者”地位
2025-09-02 18:00:00
特斯拉Model Y L 正式开启全国首批交付 新车售价33.9万元
特斯拉官方9月2日宣布,Model Y L正式开启全国首批交付。新车售价 33.9 万元,定位大六座豪华纯电 SUV,对外观细节
2025-09-02 16:50:00
品牌介绍|奥兰德:匠心筑电,“智惠”未来
作为山特公司推出的内生品牌,奥兰德自 2007 年创立以来,始终致力于为客户提供高可靠、高性价比的数字能源产品和解决方案
2025-09-02 12:57:00
赋能深圳超充之城2.0——国家能源、华为、比亚迪、宁德时代11月闪耀高交会
第二十七届中国国际高新技术成果交易会由深圳市政府主办,振威国际会展集团承办,将于2025年11月14日至16日在深圳国际会展中心(宝安)盛大举办
2025-09-02 13:00:00
“浪潮海川”烟草V9:赋能烟草行业数智新未来
浪潮数字商业自第八届数字中国峰会上正式发布“浪潮海川”品牌以来,持续完善烟草V9、快消锐通、智信睿达等行业产品及整体解决方案
2025-09-02 13:24:00
浪潮灵犀有言数字人平台:零门槛部署、全场景支持,为AI添“温度”
如今,AI数字人已从概念走向实际应用,覆盖大厅导办、直播带货、智能客服、数字员工等多个场景,提供了更具亲切感、人性化温度的AI互动服务
2025-09-02 13:24:00
2025年5月24日,由东北财经大学校级公益社团发起的“慧眼——全生态眼科医疗保健康复平台”项目(以下简称“慧眼”项目)正式发布
2025-09-02 12:57:00
聚力突破·破局增长|装库科技礼包事业部金九银十启动会成功举办
8月29日,装库科技礼包事业部在中国·成都举办“聚力突破·破局增长”金九银十启动会。来自全国的团队成员齐聚一堂,通过董事长致辞
2025-09-02 09:17:00
以“智”赋能,济南机器人产业加速奔跑
大众网记者 赵晓丹 济南报道近年来,济南市将机器人产业作为标志性产业链重点培育,通过政策引导、生态构建与企业攻坚“三力齐发”
2025-09-02 09:53:00
8月20日3时,在开滦股份吕家坨矿新副井800米井筒深处,一条敷设在罐道上的光纤精准捕捉到一组异常声波频率。30秒后,位于提升机车房的数据分析基站屏幕显示
2025-09-02 10:05:00
河北新闻网讯(闫丽颖、唐福刚)2025年以来,开滦股份范各庄矿秉持科技保安、科技兴安理念,大力推广顶板智能动态监测系统
2025-09-02 10:13:00
南京六家企业入选国家级5G工厂江宁开发区企业占据“半壁江山”南报网讯(通讯员毛欣悦记者张希)近日,工信部对《2025年5G工厂名录》进行公示
2025-09-02 07:36:00