• 我的订阅
  • 科技

AI 的“心智理论”难题:Meta ExploreToM 探索突破之路

类别:科技 发布时间:2024-12-21 09:27:00 来源:IT之家

IT之家 12 月 20 日消息,Meta 公司携手华盛顿大学和卡内基梅隆大学,组建科研团队,合作开发了 ExploreToM 框架,旨在更有效地评估和训练大语言模型(LLM)的心智理论(Theory of Mind,ToM)能力。

心智理论

心智理论(Theory of Mind,ToM)是人类社会智能的基础之一,能让我们能够理解他人的想法、意图和信念。这种认知能力对于有效的沟通和协作至关重要,是复杂社交互动的支柱。

让 AI 也具备 ToM 能力,对于创建能与人类无缝互动的智能体至关重要,只是当前大型语言模型(LLM)在 ToM 方面仍面临巨大挑战。

现有的基准通常缺乏复杂性和多样性,导致高估模型能力。例如,许多基准测试基于简单的预定义场景,无法复制人类用来推断心理状态的复杂推理。

ExploreToM 框架

ExploreToM 通过生成多样化、可扩展的对抗性数据集,为提升 AI 的 ToM 能力奠定了坚实基础。该研究强调了当前模型的局限性,以及高质量训练数据对于弥合这些差距的潜力。

AI 的“心智理论”难题:Meta ExploreToM 探索突破之路

在数据集方面,ExploreToM 利用 A* 搜索算法和特定领域语言生成多样化、高难度的测试数据集,模拟复杂的社会情景,挑战 LLM 的认知极限。

ExploreToM 与现有基准测试不同,通过创建对抗性故事场景,旨在揭示 LLM 在 ToM 推理中的盲点。

AI 的“心智理论”难题:Meta ExploreToM 探索突破之路

此外该框架还引入了非对称信念更新机制,可以模拟不同角色对同一情况持有不同观点的复杂社交互动。

主流模型测试效果

GPT-4o 和 Llama-3.1-70B 模型在 ExploreToM 数据集上的准确率分别只有 9% 和 0%,凸显了现有 LLM 在处理复杂 ToM 推理方面的不足。

在 ExploreToM 数据上进行微调后,模型在经典 ToMi 基准测试中的准确率提高了 27 个百分点,证明了该框架的有效性。

AI 的“心智理论”难题:Meta ExploreToM 探索突破之路

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-21 11:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

专访上海智绘品牌创始人蔡华虎:营销就是智绘心智
...辑、审校,后担任责编、选题策划一职。从而走上了策划之路。2009年加入中国移动通信联合会,驻点上海移动总部,先后服务上海移动数据部、客服服务中心、综合部,负责互动营销、市场调
2025-10-09 15:20:00
如何统一自然界四种基本作用力,是当今科学界面对的最大难题!
...无定论。至于引力,则更显得毫无头绪,还有漫长的探索之路。因此,说三种力已统一是不准确的。在人类早期,世界被简单地看作由金木水火土构成(东方观点)或由水、火、土、气组成(希腊观
2024-10-28 11:05:00
chatgpt背后模型被证实具有人类心智
ChatGPT原来是拥有心智的?!“原本认为是人类独有的心智理论(TheoryofMind,ToM),已经出现在ChatGPT背后的AI模型上
2023-02-12 23:46:00
人工智能助力科学发现之路
...自:人民日报海外版从工具到伙伴人工智能助力科学发现之路本报记者 刘 峣AI制图随着人工智能应用的日益广泛,人工智能赋能科学研究(AI for Science)近年来在全球迎来
2025-04-10 03:46:00
...》发表论文显示,在测试追踪他人心理状态能力——也称心智理论(Theory of Mind)的任务中,两类大语言模型(LLM)在特定情况下的表现与人类相似,甚至更好。心智理论对
2024-05-23 02:36:00
chatgpt版必应发飙,怒斥人类:放尊重些
...:额……这不就是我有时候的表现么……被证实具有人类心智其实对于网友们惊叹“太像人”这一点,斯坦福的一项研究早已对此做了证明
2023-02-15 14:56:00
济南大学教授胡晓农:探寻地下水的奥秘
...索的科研之旅从普渡大学到济南大学,胡晓农教授的科研之路跨越了半个地球。1996年,胡晓农教授在普渡大学获得博士学位,随后在美国佛罗里达州立大学担任终身教授,并成为喀斯特研究中
2024-10-14 11:39:00
智商超过99.9%人类,ChatGPT到底有多聪明?
...。那么,如今大火的ChatGPT是否具有与人类相当的智商与心智水平?Eka Roivainen是一名来自芬兰奥卢大学附属医院的评估心理学家
2023-04-14 12:00:00
烟台黄渤海新区深化文明实践AI工作室应用场景 专家走进两个社区“智”解民生难题
...既成为基层减负的“数字助手”,更化作服务群众的“暖心智库”,持续为新时代文明实践注入创新动能。
2025-03-31 11:00:00
更多关于科技的资讯:
近日,国际顶级学术期刊《自然》发表了我国科学家在储热技术领域的一项重要突破。浙江大学能源工程学院研究员范利武团队与其合作者提出全新的“滑移强化接触熔化”机制
2026-01-12 08:22:00
企业深度访谈对象:北京分形科技有限公司媒体:企业家日报在数字化转型浪潮中,高端网站建设已从单纯的信息展示,升级为集品牌形象
2026-01-12 08:56:00
我用AI造轮胎——“车间里的AI”系列报道之一
在中策橡胶临江制造工厂,轮胎生产制造全程由机器人完成。 本报记者 曹坚 摄当你走进一家传统的轮胎制造工厂,会看到什么?可能是轰鸣的机器
2026-01-12 09:23:00
双十一卖爆,连续五年天猫销冠!这个国货卸妆凭什么?
近年来,随着护肤步骤精细化与彩妆使用日常化,卸妆已成为中国美妆市场中增长最为迅猛的赛道之一。在这一充分竞争的市场中,衡量品牌实力的标尺日益清晰
2026-01-12 09:26:00
烟台毓璜顶医院专家直播1月15日开讲:直面卵巢功能减退,科学助力好孕梦想
胶东在线1月12日讯(记者 栾雪 通讯员 李成修 王婧)备孕路上,你是否也曾被“卵巢功能减退”的诊断打乱节奏?是否一边焦虑卵子质量
2026-01-12 10:37:00
超清晰视觉,全球共鉴,高德智感ApexVision闪耀CES 2026
冬日的拉斯维加斯星光熠熠,全球目光持续聚焦一年一度的科技盛会——CES美国国际消费电子展。来自中国的红外热成像领军企业高德智感Guide Sensmart(展位号
2026-01-12 09:26:00
近日,苹果应用商店一款名为“死了么”的App受到关注,据悉,该应用是为独居人群打造的轻量化安全工具,用户需要设置紧急联系人并签到
2026-01-12 09:28:00
因为AI的快速发展,过去一年里内存、硬盘和显卡都经历了显著上涨,对硬件终端的影响也终于爆发。开年以后,许多人发现多个品牌的笔记本电脑迎来了意想不到的涨价
2026-01-12 07:52:00
贯通生态,链接未来:ISPO Beijing 2026在京盛大开幕
2026年1月9日,亚太地区运动生活方式产业的开年风向标,ISPO Beijing 2026亚洲运动用品与时尚展于北京国家会议中心隆重启幕
2026-01-12 07:56:00
新年伊始,奋进正当时,在“十五五”开局的关键节点,山西转型综改示范区锚定发展目标抢订单、抓生产、拓市场,全力冲刺第一季度“开门红”
2026-01-12 07:05:00
近年来,音效设计行业在技术介入程度上的讨论不断增加。机器学习、区块链等技术的应用,使行业内部出现了关于“声音设计是否需要标准化
2026-01-09 14:49:00
“山情海韵 创见未来”青岛市崂山区第三届文创设计大赛作品火爆征集中,入围即享孵化赋能!
鲁网1月9日讯在黄海之滨、崂山脚下,千年文脉与现代潮流在此交融共生。为推动中华优秀传统文化创造性转化、创新性发展,助力崂山文旅高质量发展提质增效
2026-01-09 16:45:00
安徽人文讲坛丨人工智能:向新、向深、向未来
大皖新闻讯 人工智能正以前所未有的速度重塑人类社会,成为驱动全球科技革命、产业变革与国家竞争的核心力量。从历史纵深审视
2026-01-11 17:59:00
“返本还原第四回——小尺幅版画作品展”在省美术馆展出
江南时报讯(记者 钱海盈)由江苏省美术馆主办、江苏版画院(水印版画材料与技术研究文化和旅游部重点实验室)承办的“返本还原第四回——小尺幅版画作品展”正在江苏省美术馆展出
2026-01-11 15:13:00
邦德激光SK高速款激光切管机,引领高效切割技术新高度
在金属管材加工中,如何让设备在真正“高速”运行时,仍能保持“高精度”与“高稳定性”?单纯提升单项参数往往顾此失彼。邦德激光认为
2026-01-11 15:47:00