• 我的订阅
  • 科技

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

类别:科技 发布时间:2024-09-18 13:31:00 来源:新智元

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

【新智元导读】MMMU-Pro通过三步构建过程(筛选问题、增加候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。

多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提升,例如GPT-4o在大学水平上的多学科多模态理解和推理(MMMU)基准测试中取得了69.1%的准确率。

不过,基准测试结果是否真的能反映模型对多样化主题的深入理解,仍然有争议,或者说模型是否只是利用了统计模式,而非依靠理解和推理的情况下就能得出正确答案?

为了解决这一问题并推动多模态AI评估的边界,MMMU团队对MMMU基准在健壮性和问题难度上进行提升,新基准MMMU-Pro能够更准确、更严格地评估模型在广泛的学科领域内真正的多模态理解和推理能力。

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

论文链接:https://arxiv.org/abs/2409.02813

MMMU-Pro的构建过程包括三步:

1. 过滤掉纯文本模型可回答的问题;

2. 由人类专家将候选选项增加到 10 个,以减少模型蒙对答案的概率;

3. 引入纯视觉输入设置,即问题直接写在图像中,既要求模型像人一样同时具有「看」和「读」的能力,也可以在现实场景中直接将模型用于屏幕截图或照片,无需分离问题与图片;

实验结果显示,模型在MMMU-Pro上的性能明显低于 MMMU,下降 16.8% 到 26.9%,模型的排名通常与原始模型相似,但GPT-4o mini 模型的健壮性与GPT-4o相比,健壮性较差。

研究人员中还探讨了 OCR 提示和思想链 (CoT) 推理的影响,结果发现 OCR 提示的影响很小,而 CoT 通常可以提高性能。

MMMU-Pro:更健壮的MMMU

重新审视MMMU基准测试

大规模多学科多模态理解和推理(MMMU)基准测试是一个综合性的数据集,能够评估多模态人工智能模型在需要特定学科知识和深思熟虑推理的大学水平任务上的表现。

MMMU由来自大学考试、测验和教科书的1.15万个精心策划的多模态问题组成,涵盖了六个核心学科的30个主题和183个子领域。

MMMU中的每个问题都是一个多模态的图文配对,有4个多项选择选项,包括图表、图解、地图和化学结构等30种不同的图像类型。

该基准已经成为了多模态领域的标准评估工具,许多著名多模态模型在发布时都会使用MMMU来评估能力。

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

但与此同时,MMMU社区也有许多负面反馈,研究人员总结为两个问题:

1. 文本依赖性:某些问题相对独立或与相应的图像无关,即无需输入图像,仅靠问题文本就能回答;

2. 利用捷径:即使问题需要图像才能正确回答,但模型通常也能找到候选选项中的捷径或相关性,根据预训练中获得的先验知识来得出正确答案。

所以MMMU-Pro在构建的时候,更加细致地考虑问题与图像之间的关联性,以及智能体是否真正理解了问题的本质,而不仅仅依赖于文本信息或选项中的模式识别。

构建方法

为了缓解这些问题并构建一个更健壮的基准测试,研究人员设计了一个三步方法:

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

1. 筛选问题

删除仅通过文本的大型语言模型(LLMs)就能回答的问题。

研究人员选择了四个强大的开源LLMs:Llama3-70B-Instruct、Qwen2-72B-Instruct、Yi-1.5-34B-Chat和Mixtral-8×22BInstruct(gpt-4o),并要求模型在没有图像的情况下回答MMMU问题;即使模型表明需要视觉输入,也要求模型提供答案。

对每个模型重复上述过程十次,如果某个模型能够正确回答一个问题超过五次,就可以认为这个问题是「纯文本可回答的」,排除掉三个模型都可回答的问题。

然后从剩余的问题池中,在30个主题下,每个主题随机抽取60个问题,总计1800个问题。

2. 增加候选选项

为了防止模型根据问题和候选项之间的关联来回答问题,研究人员将问题的候选项从四个增加到十个,使模型更难蒙对。

在增加选项的过程中,专家还会对原始的标注问题进行审查,以确保问题与图像的相关性,并排除了缺乏明确联系或连贯性的问题,筛选出了70个问题。

3. 通过仅视觉输入设置增强评估

为了进一步挑战模型的多模态理解,研究人员在MMMU-Pro中引入了纯视觉输入设置,将问题嵌入到屏幕截图或照片中。

人类标注人员需要在模拟显示环境中手动捕获照片和屏幕截图,图片涉及不同的背景、字体样式和字体大小,可以覆盖现实世界条件的多样性。

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

最终总共获得了3460个问题,其中1730个样本是标准格式 ,另外1730个是屏幕截图或照片形式。

实验结果

实验设置

研究人员用到的基线模型包括:

1. 闭源模型(Proprietary Models):GPT-4o(0513)和GPT-4o mini,Claude 3.5 Sonnet,以及Gemini 1.5 Pro(0801和0523版本),代表了多模态模型能力的最前沿。

2. 开源模型:InternVL2(8B、40B和Llama3-76B版本)、LLaVA(OneVision-7B、OneVision-72B和各种NeXT版本)、VILA-1.5-40B、MiniCPM-V2.6、Phi-3.5-Vision和Idefics3-8B-Llama3

研究人员在三种不同的测试环境下对模型进行评估:(1)4个选项的标准设置、10个选项下的性能和(3)纯视觉输入,其中(2)和(3)的平均分作为MMMU-Pro的总体性能得分。

总体结果

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

增加候选选项的影响

从4个候选选项增加到10个(∆1)对所有模型的性能都有明显的下降,GPT-4o(0513)的准确率下降了10.7%,从64.7%降至54.0%,表明增加选项数量可以有效降低了模型猜测正确答案的可能性,迫使模型更深入地理解和处理多模态内容。

纯视觉设置的影响

GPT-4o(0513)在纯视觉设置中的准确率又下降了4.3%,而LLaVA-OneVision-72B的准确率大幅下降了14.0%,表明纯视觉设置确实能考验出模型整合视觉和文本信息的能力。

对MMMU-Pro的综合影响

总体的性能差异∆3代表MMMU-Pro与MMMU(验证集)之间的差异,可以看到Gemini 1.5 Pro(0801)和Claude 3.5 Sonnet模型分别出现了18.9%和16.8%的下降,而VILA-1.5-40B等模型的下降的更多,达到了26.9%。

全面的准确率显著降低表明,MMMU-Pro成功地降低了模型在原始基准测试中可能利用的捷径和猜测策略。

OCR在视觉设置中有帮助吗

研究人员探讨了光学字符识别(OCR)提示是否有助于提高MMMU-Pro仅视觉输入设置中的性能。

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

OCR提示明确要求模型写出图像中的问题文本,不过,在评估的模型中,包含OCR提示并没有显著改变性能。

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

微小的性能差异表明,现有的模型已经能够从图像中提取和理解文本信息,即使没有明确的OCR提示也是如此。

当文本嵌入在图像中时,虽然显著增加了视觉输入的整体复杂性,但简单的OCR不足以解决MMMU-Pro仅视觉输入设置所提出的问题,模型不仅要识别和提取文本,还要理解其在图像中的上下文、与视觉元素的关系以及与当前问题的相关性。

CoT有助于回答MMMU-Pro问题吗?

在MMMU-Pro基准测试中,研究人员估了思维链(Chain of Thought,简称CoT)提示在提升智能体性能方面的有效性,包括标准设置和视觉输入设置。

结果显示,在这两种设置下,引入CoT提示都能够带来性能的提升,但不同智能体的性能提升幅度存在显著差异。

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

例如,Claude 3.5 Sonnet在标准设置中表现出显著的性能提升,准确率从42.7%提高到55.0%,相比之下,LLaVA-OneVision-72B只有很小的性能提升。

值得注意的是,一些智能体,比如VILA1.5-40B,在引入CoT提示后性能反而出现了下降,可能与模型在遵循指令方面的能力有关。如果模型无法准确地遵循指令,生成CoT解释就会变得更加困难。

此外,有些模型无法保持正确的回复格式,即存在所谓的「简化回复格式」问题。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-18 15:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用
2024-06-29 09:37:00
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...zhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文出自启元世界多模态算法组
2024-09-07 09:44:00
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...像与语音识别能力。本月初,微软更是公布了 166 页的多模态版 GPT-4V 的相关文档,详细探讨了 GPT-4V 的功能和使用情况
2023-10-17 16:31:00
连发两款模型“补课”,百度AI成色如何?
...箱底的技术实力?按百度说法,文心4.5定位新一代原生多模态基础大模型,在多个基准测试中超过GPT-4o,得分最高的则是DocVQA
2025-03-20 11:38:00
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有
2024-10-18 09:47:00
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...论文提名和最佳短论文奖等。其研究成果在生成模型和多模态学习领域受到了学术界和工业界的广泛认可。Pengchuan Zhang是Meta AI(原Facebook AI研究院)的人工智能研究科学家
2024-11-07 09:53:00
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至
2024-11-20 09:43:00
支付宝发布多模态医疗大模型:支持千亿级视觉识别
...快科技7月5日消息,在2024世界人工智能大会上,支付宝多模态医疗大模型正式亮相,成为国内首批多模态医疗大模型之一。据悉,该医疗大模型的基石,源自蚂蚁集团自主研发的蚂蚁百灵大
2024-07-05 16:17:00
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码
2024-09-24 13:36:00
更多关于科技的资讯:
高通第四代骁龙8s支持新一代帧生成算法:60fps游戏秒变120fps
快科技4月2日消息,今日下午,高通正式推出了第四代骁龙8s移动平台,这一新品在多个关键领域实现了显著升级。首先,其采用了全大核CPU架构
2025-04-02 18:40:00
美国加征25%让低价车无钱可赚 奔驰考虑在美撤下入门车型
快科技4月2日消息,据报道,美国将对进口汽车加征25%的额外关税,自4月2日起生效。分析师称,这将使每辆汽车的成本增加数千美元
2025-04-02 18:40:00
REDMI首发!高通第四代骁龙8s正式发布:系列首次全大核
快科技4月2日消息,今天下午,高通正式发布了全新旗舰平台——第四代骁龙8s。高通将其定义为“新生代旗舰”,专为追求出色娱乐体验和创作体验的用户打造
2025-04-02 18:40:00
蔚来乐道总裁官宣离职:辜负期待 深感愧疚
“做不到,就下课”3月销量放榜第二天,蔚来乐道品牌总裁艾铁成兑现承诺,官宣离职。去年11月广州车展上,艾铁成公开立下“军令状”
2025-04-02 18:40:00
3月交付过没过两万:蔚来乐道总裁艾铁成“下课”
难抵压力,乐道汽车总裁艾铁成还是“下课了”。4 月 2 日上午,艾铁成通过乐道 App 发表文章宣布离职,不再担任乐道汽车总裁和蔚来高级副总裁
2025-04-02 18:40:00
小米汽车司机驾驶中睡着上热搜 客服回应:智驾系统只是辅助
快科技4月2日消息,近日,有网友曝光小米汽车车主驾驶中睡着,双手离开方向盘。同行友人连喊三遍“减速”避让小米汽车。据视频显示
2025-04-02 18:40:00
永辉高管谈调改 于东来直接打断!质问月赚200万为何不涨工资
快科技4月2日消息,在近日的2025中国超市周活动现场,永辉超市负责调改的高管正在台上演讲,被胖东来创始人于东来登台打断
2025-04-02 18:40:00
博主吐槽新能源汽车门把手根本找不到 打车感觉自己像土鳖
快科技4月2日消息,近日,一位博主在社交媒体上吐槽新能源汽车的门把手设计,引发了广泛关注和讨论。随着网约车的普及,乘客们发现
2025-04-02 18:40:00
全球富豪榜变化:马斯克仍高居榜首 巴菲特跃居第五
今年年初,全球千亿美元级超级富豪数量为16人,但如今已降至13人。这一变化源于美股在一季度遭遇自2022年以来最严重的季度跌幅
2025-04-02 19:10:00
REDMI/iQOO首批商用!一图了解高通第四代骁龙8s
快科技4月2日消息,今天下午,高通正式发布第四代骁龙8s。据悉,第四代骁龙8s基于台积电4nm工艺制造,其Kryo CPU采用1+3+2+2的 “1超7大” 架构设计
2025-04-02 19:10:00
比亚迪21%毛利率背后的变革
2025年只过了3个月,比亚迪的营收能力再次震慑车圈。3月24日,比亚迪发布2024年财务报告。财报显示,2024年比亚迪营业收入7771
2025-04-02 19:10:00
快科技4月2日消息,据媒体报道,4月1日至18日,武汉近10万名初三生参加体育中考,全面采用“智能设备+云端管理”模式
2025-04-02 19:10:00
算法并非万能!央视呼吁:“智能驾驶”也请握紧方向盘
快科技4月2日消息,近日,有关智能驾驶而引发的交通事故在网络上引起了大家的热烈讨论,对此,央视网评指出,“智能驾驶”,也请握紧方向盘
2025-04-02 19:10:00
中石油管道局科新公司破解纳米孔洞“结构密码”
河北新闻网讯(杨志明、杨洁、张珊榕)近日,中石油管道局投运公司中油科新化工有限公司(以下简称“科新公司”)在纳米材料研究领域获得重要突破
2025-04-02 19:17:00
真正的Windows on Arm!大神最新魔改成果:智能手表运行Windows
快科技4月2日消息,近日,名为Gustave Monce的开发者最新成果惊呆了众多网友,他成功将Windows操作系统运行在智能手表上
2025-04-02 19:40:00