• 我的订阅
  • 科技

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

类别:科技 发布时间:2024-09-18 13:31:00 来源:新智元

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

【新智元导读】MMMU-Pro通过三步构建过程(筛选问题、增加候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。

多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提升,例如GPT-4o在大学水平上的多学科多模态理解和推理(MMMU)基准测试中取得了69.1%的准确率。

不过,基准测试结果是否真的能反映模型对多样化主题的深入理解,仍然有争议,或者说模型是否只是利用了统计模式,而非依靠理解和推理的情况下就能得出正确答案?

为了解决这一问题并推动多模态AI评估的边界,MMMU团队对MMMU基准在健壮性和问题难度上进行提升,新基准MMMU-Pro能够更准确、更严格地评估模型在广泛的学科领域内真正的多模态理解和推理能力。

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

论文链接:https://arxiv.org/abs/2409.02813

MMMU-Pro的构建过程包括三步:

1. 过滤掉纯文本模型可回答的问题;

2. 由人类专家将候选选项增加到 10 个,以减少模型蒙对答案的概率;

3. 引入纯视觉输入设置,即问题直接写在图像中,既要求模型像人一样同时具有「看」和「读」的能力,也可以在现实场景中直接将模型用于屏幕截图或照片,无需分离问题与图片;

实验结果显示,模型在MMMU-Pro上的性能明显低于 MMMU,下降 16.8% 到 26.9%,模型的排名通常与原始模型相似,但GPT-4o mini 模型的健壮性与GPT-4o相比,健壮性较差。

研究人员中还探讨了 OCR 提示和思想链 (CoT) 推理的影响,结果发现 OCR 提示的影响很小,而 CoT 通常可以提高性能。

MMMU-Pro:更健壮的MMMU

重新审视MMMU基准测试

大规模多学科多模态理解和推理(MMMU)基准测试是一个综合性的数据集,能够评估多模态人工智能模型在需要特定学科知识和深思熟虑推理的大学水平任务上的表现。

MMMU由来自大学考试、测验和教科书的1.15万个精心策划的多模态问题组成,涵盖了六个核心学科的30个主题和183个子领域。

MMMU中的每个问题都是一个多模态的图文配对,有4个多项选择选项,包括图表、图解、地图和化学结构等30种不同的图像类型。

该基准已经成为了多模态领域的标准评估工具,许多著名多模态模型在发布时都会使用MMMU来评估能力。

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

但与此同时,MMMU社区也有许多负面反馈,研究人员总结为两个问题:

1. 文本依赖性:某些问题相对独立或与相应的图像无关,即无需输入图像,仅靠问题文本就能回答;

2. 利用捷径:即使问题需要图像才能正确回答,但模型通常也能找到候选选项中的捷径或相关性,根据预训练中获得的先验知识来得出正确答案。

所以MMMU-Pro在构建的时候,更加细致地考虑问题与图像之间的关联性,以及智能体是否真正理解了问题的本质,而不仅仅依赖于文本信息或选项中的模式识别。

构建方法

为了缓解这些问题并构建一个更健壮的基准测试,研究人员设计了一个三步方法:

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

1. 筛选问题

删除仅通过文本的大型语言模型(LLMs)就能回答的问题。

研究人员选择了四个强大的开源LLMs:Llama3-70B-Instruct、Qwen2-72B-Instruct、Yi-1.5-34B-Chat和Mixtral-8×22BInstruct(gpt-4o),并要求模型在没有图像的情况下回答MMMU问题;即使模型表明需要视觉输入,也要求模型提供答案。

对每个模型重复上述过程十次,如果某个模型能够正确回答一个问题超过五次,就可以认为这个问题是「纯文本可回答的」,排除掉三个模型都可回答的问题。

然后从剩余的问题池中,在30个主题下,每个主题随机抽取60个问题,总计1800个问题。

2. 增加候选选项

为了防止模型根据问题和候选项之间的关联来回答问题,研究人员将问题的候选项从四个增加到十个,使模型更难蒙对。

在增加选项的过程中,专家还会对原始的标注问题进行审查,以确保问题与图像的相关性,并排除了缺乏明确联系或连贯性的问题,筛选出了70个问题。

3. 通过仅视觉输入设置增强评估

为了进一步挑战模型的多模态理解,研究人员在MMMU-Pro中引入了纯视觉输入设置,将问题嵌入到屏幕截图或照片中。

人类标注人员需要在模拟显示环境中手动捕获照片和屏幕截图,图片涉及不同的背景、字体样式和字体大小,可以覆盖现实世界条件的多样性。

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

最终总共获得了3460个问题,其中1730个样本是标准格式 ,另外1730个是屏幕截图或照片形式。

实验结果

实验设置

研究人员用到的基线模型包括:

1. 闭源模型(Proprietary Models):GPT-4o(0513)和GPT-4o mini,Claude 3.5 Sonnet,以及Gemini 1.5 Pro(0801和0523版本),代表了多模态模型能力的最前沿。

2. 开源模型:InternVL2(8B、40B和Llama3-76B版本)、LLaVA(OneVision-7B、OneVision-72B和各种NeXT版本)、VILA-1.5-40B、MiniCPM-V2.6、Phi-3.5-Vision和Idefics3-8B-Llama3

研究人员在三种不同的测试环境下对模型进行评估:(1)4个选项的标准设置、10个选项下的性能和(3)纯视觉输入,其中(2)和(3)的平均分作为MMMU-Pro的总体性能得分。

总体结果

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

增加候选选项的影响

从4个候选选项增加到10个(∆1)对所有模型的性能都有明显的下降,GPT-4o(0513)的准确率下降了10.7%,从64.7%降至54.0%,表明增加选项数量可以有效降低了模型猜测正确答案的可能性,迫使模型更深入地理解和处理多模态内容。

纯视觉设置的影响

GPT-4o(0513)在纯视觉设置中的准确率又下降了4.3%,而LLaVA-OneVision-72B的准确率大幅下降了14.0%,表明纯视觉设置确实能考验出模型整合视觉和文本信息的能力。

对MMMU-Pro的综合影响

总体的性能差异∆3代表MMMU-Pro与MMMU(验证集)之间的差异,可以看到Gemini 1.5 Pro(0801)和Claude 3.5 Sonnet模型分别出现了18.9%和16.8%的下降,而VILA-1.5-40B等模型的下降的更多,达到了26.9%。

全面的准确率显著降低表明,MMMU-Pro成功地降低了模型在原始基准测试中可能利用的捷径和猜测策略。

OCR在视觉设置中有帮助吗

研究人员探讨了光学字符识别(OCR)提示是否有助于提高MMMU-Pro仅视觉输入设置中的性能。

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

OCR提示明确要求模型写出图像中的问题文本,不过,在评估的模型中,包含OCR提示并没有显著改变性能。

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

微小的性能差异表明,现有的模型已经能够从图像中提取和理解文本信息,即使没有明确的OCR提示也是如此。

当文本嵌入在图像中时,虽然显著增加了视觉输入的整体复杂性,但简单的OCR不足以解决MMMU-Pro仅视觉输入设置所提出的问题,模型不仅要识别和提取文本,还要理解其在图像中的上下文、与视觉元素的关系以及与当前问题的相关性。

CoT有助于回答MMMU-Pro问题吗?

在MMMU-Pro基准测试中,研究人员估了思维链(Chain of Thought,简称CoT)提示在提升智能体性能方面的有效性,包括标准设置和视觉输入设置。

结果显示,在这两种设置下,引入CoT提示都能够带来性能的提升,但不同智能体的性能提升幅度存在显著差异。

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

例如,Claude 3.5 Sonnet在标准设置中表现出显著的性能提升,准确率从42.7%提高到55.0%,相比之下,LLaVA-OneVision-72B只有很小的性能提升。

值得注意的是,一些智能体,比如VILA1.5-40B,在引入CoT提示后性能反而出现了下降,可能与模型在遵循指令方面的能力有关。如果模型无法准确地遵循指令,生成CoT解释就会变得更加困难。

此外,有些模型无法保持正确的回复格式,即存在所谓的「简化回复格式」问题。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-18 15:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用
2024-06-29 09:37:00
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...zhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文出自启元世界多模态算法组
2024-09-07 09:44:00
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...像与语音识别能力。本月初,微软更是公布了 166 页的多模态版 GPT-4V 的相关文档,详细探讨了 GPT-4V 的功能和使用情况
2023-10-17 16:31:00
连发两款模型“补课”,百度AI成色如何?
...箱底的技术实力?按百度说法,文心4.5定位新一代原生多模态基础大模型,在多个基准测试中超过GPT-4o,得分最高的则是DocVQA
2025-03-20 11:38:00
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...论文提名和最佳短论文奖等。其研究成果在生成模型和多模态学习领域受到了学术界和工业界的广泛认可。Pengchuan Zhang是Meta AI(原Facebook AI研究院)的人工智能研究科学家
2024-11-07 09:53:00
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有
2024-10-18 09:47:00
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至
2024-11-20 09:43:00
支付宝发布多模态医疗大模型:支持千亿级视觉识别
...快科技7月5日消息,在2024世界人工智能大会上,支付宝多模态医疗大模型正式亮相,成为国内首批多模态医疗大模型之一。据悉,该医疗大模型的基石,源自蚂蚁集团自主研发的蚂蚁百灵大
2024-07-05 16:17:00
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码
2024-09-24 13:36:00
更多关于科技的资讯:
出海再提速!锦江酒店(中国区)宣布旗下7天酒店出海,同日签约10个项目
锦江酒店(中国区)规模化出海再次迎来关键节点。10月31日,其于深圳正式宣布,国民品牌7天酒店将进军东南亚市场。这是继今年8月底
2025-11-01 10:02:00
10月28日,亚洲国际动力传动与控制技术展览会(PTC ASIA 2025)在上海新国际博览中心启幕。近1800家海内外知名展商齐聚
2025-11-01 07:03:00
正式发布!视源股份牵头制定《娱乐用车载显示系统图像质量技术规范》团体标准
2025年10月23日,在全国音频、视频及多媒体系统与设备标准化技术委员会(SAC/TC 242)商用显示标准研究组第六次全会暨标准研讨会上
2025-10-31 08:20:00
中感集团煤仓安全综合解决方案亮相中国国际煤炭采矿展,以系统性创新重塑矿山作业安全
在北京举行的第21届中国国际煤炭采矿技术交流与设备展览会上,中感集团创新展示的“煤仓安全综合解决方案”引发行业高度关注
2025-10-31 08:51:00
人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲
2025中国国际数字经济博览会在石家庄国际会展中心开幕。科杰科技董事长于洋受邀出席2025首席数据官峰会论坛,并作主题为《人工智能产业决胜与 Data&
2025-10-31 08:51:00
■加快构建覆盖全域、经济适用、安全可靠的数字技术支撑体系,着力打通数据壁垒与业务断点,促进产业链各环节融通发展■建立功能完善
2025-10-31 09:05:00
在数字化、网络化、智能化的当下,图书馆的角色和功能正在发生深刻变化。究竟什么样的图书馆更“聪明”?近日,第五届长三角公共图书馆发展论坛在上海举行
2025-10-31 09:05:00
Mutual妙趣艺:全球战略+资源整合,打造文娱IP数字资产化标杆
Mutual妙趣艺于2020年成立于美国加州,专注于文娱IP(知识产权)数字资产化领域。公司的核心定位是打造“数字资产领域的AWS”
2025-10-31 10:57:00
鲁网10月31日讯近日,“2025年第四届移动网络高质量发展论坛”在北京盛大启幕。在本次论坛上,工业和信息化部委托中国信通院权威发布了2024年“全国百城重点区域移动网络质量专项评测结果”
2025-10-31 11:43:00
人工智能(AI)是新一轮科技革命和产业变革的重要驱动力量,广西聚焦国家所需、广西所能、东盟所盼,正加快构建一条“北上广研发+广西集成+东盟应用”的特色发展路径
2025-10-31 11:46:00
aigo国民好物成为第32届WCGC全球总决赛官方唯一翻译类供应商——以中国智造共铸无界对话的全球盛事
上海,2025年10月 —— 备受瞩目的第32届世界企业高尔夫挑战赛(WCGC)全球总决赛于2025年10月19日至23日在上海东庄海岸高尔夫俱乐部隆重举行
2025-10-31 11:52:00
让检测全面拥抱AI!科学指南针2025产品服务发布会举行
让检测全面拥抱AI!10月30日,科学指南针2025年度产品服务发布会在杭州举办,来自高校院所、企业、分析测试中心等多方行业代表到场参会
2025-10-31 11:52:00
培育钻定制哪个品牌好?2025最新测评出炉,国产珠宝高性价比领跑榜单
曾几何时,钻石承载着“钻石恒久远,一颗永流传”的爱情神话,而天然钻石的稀缺性更被赋予了极高的市场价值。然而,随着实验室培育钻石技术的突破性进展
2025-10-31 12:14:00
在企业商旅管理从“费用管控”向“全流程智能管理”演进的关键时期,平台竞争力已不再局限于单一的预订功能,而是延伸至合规风控
2025-10-31 12:16:00
拓竹荣膺《时代》最佳发明,3D打印技术步入主流创新支撑体系
近期,《时代》周刊公布2025年度最佳发明榜单,揭示一个耐人寻味的现象:在300项突破性发明中,仅有4项被明确标注为3D打印创新
2025-10-31 12:19:00