• 我的订阅
  • 科技

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

类别:科技 发布时间:2024-09-18 13:31:00 来源:新智元

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

【新智元导读】MMMU-Pro通过三步构建过程(筛选问题、增加候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。

多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提升,例如GPT-4o在大学水平上的多学科多模态理解和推理(MMMU)基准测试中取得了69.1%的准确率。

不过,基准测试结果是否真的能反映模型对多样化主题的深入理解,仍然有争议,或者说模型是否只是利用了统计模式,而非依靠理解和推理的情况下就能得出正确答案?

为了解决这一问题并推动多模态AI评估的边界,MMMU团队对MMMU基准在健壮性和问题难度上进行提升,新基准MMMU-Pro能够更准确、更严格地评估模型在广泛的学科领域内真正的多模态理解和推理能力。

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

论文链接:https://arxiv.org/abs/2409.02813

MMMU-Pro的构建过程包括三步:

1. 过滤掉纯文本模型可回答的问题;

2. 由人类专家将候选选项增加到 10 个,以减少模型蒙对答案的概率;

3. 引入纯视觉输入设置,即问题直接写在图像中,既要求模型像人一样同时具有「看」和「读」的能力,也可以在现实场景中直接将模型用于屏幕截图或照片,无需分离问题与图片;

实验结果显示,模型在MMMU-Pro上的性能明显低于 MMMU,下降 16.8% 到 26.9%,模型的排名通常与原始模型相似,但GPT-4o mini 模型的健壮性与GPT-4o相比,健壮性较差。

研究人员中还探讨了 OCR 提示和思想链 (CoT) 推理的影响,结果发现 OCR 提示的影响很小,而 CoT 通常可以提高性能。

MMMU-Pro:更健壮的MMMU

重新审视MMMU基准测试

大规模多学科多模态理解和推理(MMMU)基准测试是一个综合性的数据集,能够评估多模态人工智能模型在需要特定学科知识和深思熟虑推理的大学水平任务上的表现。

MMMU由来自大学考试、测验和教科书的1.15万个精心策划的多模态问题组成,涵盖了六个核心学科的30个主题和183个子领域。

MMMU中的每个问题都是一个多模态的图文配对,有4个多项选择选项,包括图表、图解、地图和化学结构等30种不同的图像类型。

该基准已经成为了多模态领域的标准评估工具,许多著名多模态模型在发布时都会使用MMMU来评估能力。

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

但与此同时,MMMU社区也有许多负面反馈,研究人员总结为两个问题:

1. 文本依赖性:某些问题相对独立或与相应的图像无关,即无需输入图像,仅靠问题文本就能回答;

2. 利用捷径:即使问题需要图像才能正确回答,但模型通常也能找到候选选项中的捷径或相关性,根据预训练中获得的先验知识来得出正确答案。

所以MMMU-Pro在构建的时候,更加细致地考虑问题与图像之间的关联性,以及智能体是否真正理解了问题的本质,而不仅仅依赖于文本信息或选项中的模式识别。

构建方法

为了缓解这些问题并构建一个更健壮的基准测试,研究人员设计了一个三步方法:

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

1. 筛选问题

删除仅通过文本的大型语言模型(LLMs)就能回答的问题。

研究人员选择了四个强大的开源LLMs:Llama3-70B-Instruct、Qwen2-72B-Instruct、Yi-1.5-34B-Chat和Mixtral-8×22BInstruct(gpt-4o),并要求模型在没有图像的情况下回答MMMU问题;即使模型表明需要视觉输入,也要求模型提供答案。

对每个模型重复上述过程十次,如果某个模型能够正确回答一个问题超过五次,就可以认为这个问题是「纯文本可回答的」,排除掉三个模型都可回答的问题。

然后从剩余的问题池中,在30个主题下,每个主题随机抽取60个问题,总计1800个问题。

2. 增加候选选项

为了防止模型根据问题和候选项之间的关联来回答问题,研究人员将问题的候选项从四个增加到十个,使模型更难蒙对。

在增加选项的过程中,专家还会对原始的标注问题进行审查,以确保问题与图像的相关性,并排除了缺乏明确联系或连贯性的问题,筛选出了70个问题。

3. 通过仅视觉输入设置增强评估

为了进一步挑战模型的多模态理解,研究人员在MMMU-Pro中引入了纯视觉输入设置,将问题嵌入到屏幕截图或照片中。

人类标注人员需要在模拟显示环境中手动捕获照片和屏幕截图,图片涉及不同的背景、字体样式和字体大小,可以覆盖现实世界条件的多样性。

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

最终总共获得了3460个问题,其中1730个样本是标准格式 ,另外1730个是屏幕截图或照片形式。

实验结果

实验设置

研究人员用到的基线模型包括:

1. 闭源模型(Proprietary Models):GPT-4o(0513)和GPT-4o mini,Claude 3.5 Sonnet,以及Gemini 1.5 Pro(0801和0523版本),代表了多模态模型能力的最前沿。

2. 开源模型:InternVL2(8B、40B和Llama3-76B版本)、LLaVA(OneVision-7B、OneVision-72B和各种NeXT版本)、VILA-1.5-40B、MiniCPM-V2.6、Phi-3.5-Vision和Idefics3-8B-Llama3

研究人员在三种不同的测试环境下对模型进行评估:(1)4个选项的标准设置、10个选项下的性能和(3)纯视觉输入,其中(2)和(3)的平均分作为MMMU-Pro的总体性能得分。

总体结果

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

增加候选选项的影响

从4个候选选项增加到10个(∆1)对所有模型的性能都有明显的下降,GPT-4o(0513)的准确率下降了10.7%,从64.7%降至54.0%,表明增加选项数量可以有效降低了模型猜测正确答案的可能性,迫使模型更深入地理解和处理多模态内容。

纯视觉设置的影响

GPT-4o(0513)在纯视觉设置中的准确率又下降了4.3%,而LLaVA-OneVision-72B的准确率大幅下降了14.0%,表明纯视觉设置确实能考验出模型整合视觉和文本信息的能力。

对MMMU-Pro的综合影响

总体的性能差异∆3代表MMMU-Pro与MMMU(验证集)之间的差异,可以看到Gemini 1.5 Pro(0801)和Claude 3.5 Sonnet模型分别出现了18.9%和16.8%的下降,而VILA-1.5-40B等模型的下降的更多,达到了26.9%。

全面的准确率显著降低表明,MMMU-Pro成功地降低了模型在原始基准测试中可能利用的捷径和猜测策略。

OCR在视觉设置中有帮助吗

研究人员探讨了光学字符识别(OCR)提示是否有助于提高MMMU-Pro仅视觉输入设置中的性能。

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

OCR提示明确要求模型写出图像中的问题文本,不过,在评估的模型中,包含OCR提示并没有显著改变性能。

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

微小的性能差异表明,现有的模型已经能够从图像中提取和理解文本信息,即使没有明确的OCR提示也是如此。

当文本嵌入在图像中时,虽然显著增加了视觉输入的整体复杂性,但简单的OCR不足以解决MMMU-Pro仅视觉输入设置所提出的问题,模型不仅要识别和提取文本,还要理解其在图像中的上下文、与视觉元素的关系以及与当前问题的相关性。

CoT有助于回答MMMU-Pro问题吗?

在MMMU-Pro基准测试中,研究人员估了思维链(Chain of Thought,简称CoT)提示在提升智能体性能方面的有效性,包括标准设置和视觉输入设置。

结果显示,在这两种设置下,引入CoT提示都能够带来性能的提升,但不同智能体的性能提升幅度存在显著差异。

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

例如,Claude 3.5 Sonnet在标准设置中表现出显著的性能提升,准确率从42.7%提高到55.0%,相比之下,LLaVA-OneVision-72B只有很小的性能提升。

值得注意的是,一些智能体,比如VILA1.5-40B,在引入CoT提示后性能反而出现了下降,可能与模型在遵循指令方面的能力有关。如果模型无法准确地遵循指令,生成CoT解释就会变得更加困难。

此外,有些模型无法保持正确的回复格式,即存在所谓的「简化回复格式」问题。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-18 15:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用
2024-06-29 09:37:00
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...zhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文出自启元世界多模态算法组
2024-09-07 09:44:00
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...像与语音识别能力。本月初,微软更是公布了 166 页的多模态版 GPT-4V 的相关文档,详细探讨了 GPT-4V 的功能和使用情况
2023-10-17 16:31:00
连发两款模型“补课”,百度AI成色如何?
...箱底的技术实力?按百度说法,文心4.5定位新一代原生多模态基础大模型,在多个基准测试中超过GPT-4o,得分最高的则是DocVQA
2025-03-20 11:38:00
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...论文提名和最佳短论文奖等。其研究成果在生成模型和多模态学习领域受到了学术界和工业界的广泛认可。Pengchuan Zhang是Meta AI(原Facebook AI研究院)的人工智能研究科学家
2024-11-07 09:53:00
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至
2024-11-20 09:43:00
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有
2024-10-18 09:47:00
阿里发布千问3.5,性能媲美Gemini 3, Token价格仅为其1/18
...问大语言模型不同,千问3.5实现了从纯文本模型到原生多模态模型的代际跃迁。千问3预训练在纯文本Tokens上进行,而千问3
2026-02-16 17:34:00
支付宝发布多模态医疗大模型:支持千亿级视觉识别
...快科技7月5日消息,在2024世界人工智能大会上,支付宝多模态医疗大模型正式亮相,成为国内首批多模态医疗大模型之一。据悉,该医疗大模型的基石,源自蚂蚁集团自主研发的蚂蚁百灵大
2024-07-05 16:17:00
更多关于科技的资讯:
中企加速AI服务出海 蚂蚁数科在马来西亚设立运营枢纽中心
随着全球企业级AI市场爆发,中国AI科技公司正加速在海外市场布局。2月26日,据海外媒体报道,蚂蚁数科旗下旗舰AI产品ZOLOZ在马来西亚正式启动运营枢纽中心
2026-02-26 15:06:00
从“拼价格”到“拼价值”,欧图中国引领中国商家稳拓欧洲
拥有76年历史的德国欧图集团(OTTO Group),是集国际化、多元化、创新性于一身的大型电子商务解决方案提供商及零售集团
2026-02-26 15:21:00
Sensor Tower 2025年最佳图像与视频编辑应用:美图秀秀
2月26日,全球移动应用数据平台Sensor Tower揭晓了APAC Awards 2025年度获奖名单,美图秀秀(Meitu)凭借在AI视觉领域的创新表现
2026-02-26 15:22:00
2026深圳家纺家居展3月启幕 构筑家居产业新高地
2026(春)深圳国际家纺布艺暨家居装饰展览会暨家居中国(深圳)创意设计周将于3月7日—10日在深圳福田会展中心盛大举办
2026-02-26 16:08:00
2026年春节假期,旅游消费市场持续升温,直播带货成为游客预订酒店的一个重要方式。有消费者在直播间下单度假村套餐后,发现宣传的“3分钟到海边”实为需要打车4公里才能到达
2026-02-26 16:33:00
鲁网2月26日讯为更好地服务老年群体,提升老年健康管理水平,日照市中医医院秉承“以医助养、医养结合”的发展理念,正式启动老年医学科门诊
2026-02-26 11:13:00
未来智能 viaim OpenNote 斩获iF设计奖 全球顶级设计奖项“大满贯”
近日,由AI硬件公司未来智能推出的viaim OpenNote斩获2026年德国iF设计奖。这是继德国红点奖与日本G-Mark优良设计奖之后
2026-02-26 11:16:00
复工复学出行潮,雅迪冠能白鲨II凭硬核实力成为年轻用户焕新首选
春节的余温还未散去,复工复产开学的“奋进模式”已经开启。为自己和家人挑选一台称心的座驾,成为许多用户踏上新年奋斗路、求学路的第一步
2026-02-26 11:16:00
杭州日报讯 还记得春晚《武BOT》节目中会后空翻的机器人吗?它不仅赚足了眼球,更在会场之外引爆了一个意想不到的蓝海市场——机器人租赁
2026-02-26 08:07:00
鲁网2月26日讯马年春晚,宇树机器人在《武BOT》中的精彩亮相,点燃了全网对人形机器人的热情,也让这一前沿产业的商业化落地成为焦点
2026-02-26 10:06:00
中新经纬2月26日电 据路透社报道,一封信函显示,来自美国11个州的共和党总检察长敦促美国司法部,对Netflix收购华纳兄弟电影公司及其流媒体资产的计划进行彻底审查
2026-02-26 10:12:00
在满洲里口岸,38名火车司机每天用一段9.8公里的跨境行程,悄悄改写“一带一路”的物流方程式——这看似简单的距离背后,藏着中欧班列走出国门的首道密码
2026-02-26 10:44:00
中新经纬2月26日电 据日本共同社25日晚间消息,日本公平交易委员会对微软启动反垄断审查。报道称,相关人士表示,日本公平交易委员会以微软涉嫌在其他公司的云服务中对使用“微软365”等该公司软件的企业征收高额使用费
2026-02-26 11:00:00
坚守岗位护新春 网络畅通保团圆 滨州移动网络部圆满完成2026年春节通信保障
鲁网2月25日讯2026年春节假期,人员返乡、出行游玩、视频拜年、春晚直播带来网络流量高峰,为确保广大客户通话清晰、上网流畅
2026-02-26 08:17:00
半夜惊醒吓到后背发凉 苹果手机自己在给陌生人打电话!
很多网友说遇到同样情况 有的半夜手机通话47分钟“吓死了!我的iPhone凌晨两点自己打电话!!”昨天一早,橙友“一一啊
2026-02-26 08:07:00