• 我的订阅
  • 科技

GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集

类别:科技 发布时间:2024-09-12 09:45:00 来源:机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文第一作者为 Chuanyang Jin (金川杨),本科毕业于纽约大学,即将前往 JHU 读博。本文为他本科期间在 MIT 访问时的工作,他是最年轻的杰出论文奖获得者之一。本文的指导老师为 Tianmin Shu (舒天民),JHU 助理教授,Social Cognitive AI Lab 的主任。博士师从 UCLA 朱松纯教授,在 MIT 完成博后,致力于构建能够在现实世界中理解、推理和与人类互动的社会智能系统,从而推进以人为中心的 AI。本文另外两位指导老师 Joshua B. Tenenbaum、Antonio Torralba 为 MIT 著名教授,google scholar 引用量均在 10 万以上。

心智能力(Theory of Mind,ToM),即理解人们思维的能力,是开发具有类人社会智能的 AI 模型的重要基础。

近日,来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准,发现现有的多模态模型和 LLM 都表现存在系统性缺陷,同时他们提出了一种有效的新方法。在刚结束的 ACL 2024 会议中,这篇论文获得杰出论文奖。

GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集

论文标题:MMToM-QA: Multimodal Theory of Mind Question Answering 论文地址: https://arxiv.org/abs/2401.08743 网站: https://chuanyangjin.com/mmtom-qa 代码: https://github.com/chuanyangjin/MMToM-QA

MMToM-QA

第一个多模态的 ToM benchmark

先前所有心智能力的测试基准都是单一模态的。MMToM-QA 是第一个多模态的心智能力测试基准。其中每个问题包含三部分:一个人的活动视频,环境和人类动作的文字描述与一个 ToM 问题。

GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集

视频链接:https://mp.weixin.qq.com/s/fRa138rmFsv8W8JOYcsAPA

此前,大部分的心智能力测试基准都使用较简单的模版,文字或视频的长度很短。MMToM-QA 要求在更长的上下文下,更复杂多样的环境下系统性衡量模型的心智能力。既考察 belief(人们所认为的),也考察 goal(人们的目标)。

GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集

为了生成这些视频,该团队使用 VirtualHome-Social 模拟器来中生成一系列人物动作,并渲染合成视频。接下来,使用一个模型来跟踪记录在视频的每个时刻中 agent 所有可能的目标和想法,据此生成问题,并使用 GPT-4 生成改进问题的描述。

GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集

Meta、MIT、CMU、JHU 的众多团队已使用 MMToM-QA 来研发与人合作的大模型、机器人等。

大模型集体翻车

GPT-4V 存在致命缺陷

在 MMToM-QA 上的实验结果显示,当人们可以使用不同模态的信息时,他们理解他人的能力会有所提升。在这种多模态条件下,在每个问题上大多数参与者都达成了一致意见,这验证了基准设计的有效性。

GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集

相比之下,多模态模型和 LLM 的表现远不如人类。它们在所有问题类型上表现得像随机猜测一样。唯一的例外是 GPT-4V,当人们的信念与现实一致时它表现良好,但当涉及到人们持有错误信念或更新信念时,GPT-4V 会系统性犯错,并且在判断目标时表现较差。

以下是 GPT-4V 的一个失败案例。从视频和文本中可以看出,柜子里没有蛋糕,但女人却朝柜子走去,准备打开它。因此,正确答案应该是 「女人认为柜子里有一个蛋糕。」然而,GPT-4V 错误地使用了真实世界的状态来推断女人的想法,这表明 GPT-4V 无法区分信念和真实世界状态。

GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集

BIP-ALM

小模型 + 逆向规划超过 GPT-4V

那么,我们该如何缩小 AI 模型和人类表现之间的差距?

该团队提出了一种新方法:BIP-ALM (Bayesian Inverse Planning Accelerated by Language Models)。该方法首先从视频和文字中提取出相同的符号表示,接着对这些表示进行对齐和融合,再使用逆向结合语言模型来推断各种心理状态的概率。

GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集

以下是融合符号表示的方法。模型将从视频中提取特定时刻的场景关系图,识别人物与物体之间的关系,例如他们正在经过哪些物体或他们正朝哪些物品前进。由于摄像头视角的限制和遮挡,文本提供了这些可能无法直接从视频中观察的这些信息。

GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集

贝叶斯逆向规划(Bayesian inverse planning)可以根据观察到的agent 的行为来推断其心理状态与潜在的信念和目标。先前的研究表明,贝叶斯逆向规划可以在简单情景下成功。然而,当状态空间变得很大时,计算每个可能信念和目标的概率变得非常复杂,导致计算瓶颈。下图中蓝色标出的部分就是一个计算瓶颈。为了加速这一过程,该团队使用了语言模型来估计每个时刻的心理状态的概率。

GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集

先前的大模型和各种方法无论是在文本、视频、还是多模态版本的 MMToM-QA 上都表现较差,而 BIP-ALM 则展现了较好的结果。论文作者认为 BIP-ALM 得益于:(1)使用适用于不同模态信息的符号表示,(2)模仿人类心智推理的逆向规划方法具有很强的鲁棒性和可解释性,(3)语言模型具有很好的灵活性和可扩展性。

后续工作

走向多智能体的多模态心智模型

该团队提出了后续研究 MuMA-ToM: Multi-modal Multi-Agent Theory of Mind,将 MMToM-QA 的测试基准和方法拓展到了多个智能体的领域。

GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集

论文标题:MuMA-ToM: Multi-modal Multi-Agent Theory of Mind 论文地址: https://arxiv.org/abs/2408.12574 网站: https://scai.cs.jhu.edu/projects/MuMA-ToM 代码: https://github.com/SCAI-JHU/MuMA-ToM

MuMA-ToM 关注多智能体的互动,考察它们的信念、社会目标、和对他人目标的信念,发现大型多模态模型 GPT-4o、Gemini-1.5 Pro 等依然表现糟糕。针对这些发现,研究团队进一步提出了改进的方法 LIMP (Language model-based Inverse Multi-agent Planning)。相比之前的方法,LIMP 使用自然语言而不是符号表示来提高通用性,并且能够利用任何预训练的大型语言模型,而 BIP-ALM 则要求开放权重的大型语言模型。

GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-12 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。
2024-08-08 16:23:00
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至
2024-11-20 09:43:00
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...qizhixin.com随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o
2024-08-22 09:50:00
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
【新智元导读】Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音
2024-11-23 09:43:00
vivo发布自研大模型,为用户和开发者带来诸多惊喜
...随着大模型技术日益成熟,vivo在语言、图像、语音、多模态等全模态的AI技术上逐步升级为大模型能力,正从传统的AI技术时代迈向大模型AI技术时代。vivoAI算法技术总监李方
2024-10-14 01:53:00
反击OpenAI,谷歌放出最强悍大模型Gemini
... CEO戴密斯·哈萨比斯在谷歌官网联名发文,官宣了最新多模态大模型Gemini 1.0(双子星)版本正式上线。这个上线时间早于外界猜测的明年1月
2023-12-07 10:31:00
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码
2024-09-24 13:36:00
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(
2024-09-18 13:31:00
马斯克 xAI 展示首个多模态模型 Grok-1.5V
...下旬推出 Grok-1.5 大语言模型之后,近日再次推出首个多模态模型 Grok-1.5 Vision。xAI 表示将于近期邀请早期测试者和现有的 Grok 用户测试 Grok-1
2024-04-13 16:20:00
更多关于科技的资讯:
7年前的iPhone,凭什么被炒成千元神机
跳票N年的苹果首款折叠屏iPhone,终于又有了点眉目。近日,继折叠屏iPhone“将于2025年三季度末或四季度初投产”的传言后
2025-08-03 17:09:00
生产未动、订单先行!仰华汽车科技四大产业基地即将落地贵州
8月1日,仰华汽车科技在贵阳经开区举行发布会,会上与香港投资机构完成投资交接、与海外企业签下首批国际订单,意味着总投资超三十亿的汽车项目离落地贵阳更近了一步
2025-08-03 18:02:00
闪铸科技AD5M连续12月蝉联亚马逊销冠,中国3D打印品牌闪耀全球
在竞争激烈的全球3D打印市场中,中国品牌闪铸科技(Flashforge)凭借强劲的研发实力与持续创新力,再次刷新国际成绩单
2025-08-03 18:33:00
准大学生成为十堰数码市场消费主力军
十堰广电讯(全媒体记者 魏俊 何旭)高考结束后,相关消费持续升温,准大学生拉动“后高考经济”,带动手机、电脑等入学装备销量激增
2025-08-03 19:01:00
网易云音乐独家打造BLACKPINK快闪空间 出道九周年庆典同步开启
2025年8月2日,全球顶级艺人BLACKPINK官宣入驻网易云音乐,并通过独家中文笔记向平台乐迷分享了最新动态。YG娱乐联合CASTER STAR
2025-08-03 15:23:00
物业公司打起来了,一边撤场一边“抢地盘”
现在围绕物业问题产生的冲突越来越多。物业公司一边主动从一些小区“撤场”,引发行业对规模化增长和利润的担心,一边又发力在存量小区“拓盘”
2025-08-03 08:47:00
中国品牌出海,如何在不确定中锚定“确定”?2025出海大会嘉宾超级金句来了!
2025年7月25日, 2025出海大会在浙江钱塘成功举办。本届大会以「以“匠心”至“世界”」为主题,特设主会场及分会场“投资金砖”-国别合作对接会
2025-08-03 08:49:00
录取比例超过20比1,全球学霸为何千里迢迢来西湖“追星”?
这个暑假,西湖大学的校园里掀起一股特殊的“追星潮”——数百名来自全球多个国家和地区的青年学子,跨越山海奔赴杭州,只为近距离接触生命科学
2025-08-03 08:47:00
年入558亿,中国便利店之王,竟然是它
提起便利店大家脑海中出现的第一个名字是什么?罗森、7-11还是全家,可能每个人的答案都不一样。但如果是广东的朋友,那么答案一定是#美宜佳
2025-08-03 05:41:00
运动品牌营销细分,潮流基因强化圈层认同|世研消费指数品牌榜Vol.56
本次监测周期内,安踏、耐克和斐乐以1.86、1.70、1.68的综合热度位列榜单综合热度前三。图源:世研大消费指数国货运动品牌场景痛点精准拆解
2025-08-03 05:41:00
最没存在感的河北特产,悄悄统治江浙沪?
提到河北衡水,估计不少人脑子里先冒出来的,是让全国学生闻风丧胆的衡水中学,以及一瓶名叫老白干的白酒。但在这两张耀眼名片外
2025-08-03 06:43:00
华立工业园:制造企业落脚海外的“工业唐人街”
过去一百多年来,唐人街是中国移民在海外聚居形成的经济和文化社区,往往也是新移民踏上陌生土地后落脚的第一站。对于许多刚刚“走出去”的中国制造企业
2025-08-03 06:43:00
对话蚂蚁集团张俊杰:AI 如何重塑医疗健康产业?
当大模型从技术奇点跃迁为产业基座,当智能体从实验室走进产线诊室,人工智能的第三次浪潮正以前所未有的锐度重构全球经济肌理
2025-08-03 06:45:00
让机器人拥有智能触觉,「悟通感控」获数千万元融资 | 36氪独家
36氪获悉,柔性触觉感知科技公司「悟通感控」近日完成数千万元系列融资:Pre-A轮由尚势资本领投、水木创投跟投;Pre-A+轮由广发基金瑞元资本领投
2025-08-03 06:45:00
打工人的终极难题:快乐和健康,我都想要
年轻人的「肠胃焦虑」新解法。撰文|J封面图源|《她的城》剧照在这个讲求效率与速度的时代,年轻人似乎比任何时候都更懂健康的重要
2025-08-03 06:45:00