我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构建多模态基准

类别：科技发布时间：2024-08-08 16:23:00 来源：新智元

新智元报道

编辑：乔杨

【新智元导读】LLM的数学推理能力缺陷得到了很多研究的关注，但最近浙大、中科院等机构的学者们提出，先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。

无论是语言模型还是视觉模型，似乎都很难完成更抽象层次上的理解和推理任务。

语言模型已经可以写诗写小说了，但是依旧算不对9.11和9.9比大小的问题。

同样的问题也出现在视觉模型中，它们能完美理解自然景色或人物照片，却无法处理各种图表任务，甚至看表读时间都是难题。

如果要将AI系统用在更多专业领域，这些能力缺陷就显得极为突出。

最近，浙江大学、中科院软件研究所、上海科技大学等机构就联合提出了一种新的多模态基准，专门衡量模型对抽象图像的理解能力和视觉推理能力。

论文地址：https://arxiv.org/pdf/2407.07053

数据集共包含11,193个带有相关问题的抽象图像，涵盖了仪表板、路线图、图表、表格、流程图、关系图、视觉谜题和2D平面图等8大类别，此外还有额外的62,476条数据用于微调模型。

经过测试，人类在该基准上可以达到至少82.1%的准确率，但Claude 3.5 Sonnet和GPT-4o等顶流模型的成绩却远远落后于人类，分别只有64.7%和59.9%。

目前全部数据已经上传至HuggingFace仓库。

仓库地址：https://huggingface.co/datasets/zwq2018/Multi-modal-Self-instruct

此外，作者也将数据构建数据所用的代码上传到了GitHub。

代码地址：https://github.com/zwq2018/Multi-modal-Self-instruct

构建数据集

作为新提出的基准测试，重头戏自然是数据集的构建过程。

作者在论文中指出，想要采集到合适的抽象图像-文本对，既需要大量人力，也十分耗费时间。

那么使用合成数据呢？

同样也不容易，因为我们需要的是多模态数据，但LLM无法直接生成图像，DALL-E、Stable Diffusion等图像生成模型又无法同步生成文本。

一个直觉的解决方案是将二者结合在一起，直接生成

但文生图模型实际上很难对图像细节做到细微精准的控制，尤其是生成仅由几何形状组成的抽象图像，更何况其中大部分还需要包含数字和文字。

鉴于以上问题，作者提出了一种以代码为中心的「自我指导」（self-instruct）策略进行图像和相关文本的同步合成，整个过程只有语言模型——GPT-4-Turbo的参与，没有用到图像生成模型。（图2）

首先指导LLM，针对某个日常情景，提出一种视觉创意。这个过程中，作者给LLM提供了一些in-context示例，使生成结果尽可能涵盖全部8个类别。

然后模型根据自己提出的创意，生成所需的数据和代码以绘制图像。

比如对于饼状图，LLM就需要先「捏造」数据，设计出每个类型对应的百分比数值。在代码生成中，作者激励模型使用Matplotlib或ECharts等代码库，显著降低了代码复杂度。

执行代码并渲染好图像后，LLM会继续进行「自我指导」，根据视觉内容，加上之前所用的视觉创意、数据和代码作为prompt，生成多个高质量的

除了为每个问题生成答案，作者还提示LLM生成能解释答案的「原理」（rationale），以便用于训练模型，起到类似于CoT的作用。

整个构建过程的流水线如下图所示：

这种「以代码为中心」的方式不仅更容易保证图像的细节、质量和多样性，也让LLM更容易生成相关文本。

数据合成过程所用的模型是GPT-4-Turbo，但合成后还经过Llava-1.5的初筛，以保证图像的美观程度、布局合理性以及文本可读性等。

最终构建的测试集共包含3.658张图像和11,193条指令，涵盖了仪表板、路线图、图表、表格、流程图、关系图、视觉谜题和2D平面图等8个类别。

数据集进行了10%的随机抽样，并让人类验证答案的正确性，发现数据集的质量有一定的保证。

为了能进一步评估合成数据的质量，作者还为图表、表格和路线图这三个任务构建了额外的训练集，共包含62,476条指令（图1）。

基准测试

论文共对12个模型进行了测试，详细结果如表A1所示，其中人类所得分数来自于两个本科生分数的平均。

其中得分最高的是Claude 3.5 Sonnet，平均准确率为64.74%；GPT-4o紧随其后，准确率为59.99%，都与人类平均水平82.1%相去甚远。

作者发现，在图表、关系图、2D平面图中，模型经常在抽象概念或空间关系上出错。

8个类别的抽象图像中，模型表现最差的当属「路线图」类。Claude 3.5 Sonnet平均准确率为59.24%，其余模型均为未超过40%。

在「路线图」和「视觉谜题」两类图像任务中，开源和闭源模型的差距尤为明显。

模型微调

除了构建基准，论文发现，用这些合成数据训练模型可以显著提高其视觉推理能力。

相比之前的Vanilla Llava-1.5-7B，用62K条数据经过4小时LoRA微调后的模型，在3类图像任务上都有非常显著的提升。尤其是「路线图」类别，准确率飙升67.4%，超过了GPT-4V和Claude-3-Sonnet（表2）。

虽然模型在微调后出现性能提升属于正常现象，但这种微调效率可以侧面证明合成数据的潜力，尤其是在质量、有效性和多样性方面。

除了在原基准上有所进步，微调后的模型在ChatQA、MathVista这样弱相关任务上也有不同程度的分数提升（表4）。

这意味着，在合成数据上的训练可以提升模型的通用视觉推理能力，从而泛化到其他任务，而非仅仅是拟合训练场景。

结论与限制

论文最重要的贡献在于指出了当前多模态LLM在视觉推理方面的次优表现，并构建了合成数据组成的基准测试集，表明合成数据训练是一个有前景的解决方案。

与此同时，作者指出了该研究存在的三方面限制：

- 数据合成过程严重依赖LLM的代码合成和推理能力，因此论文只使用了GPT-4等闭源模型。随着Llama 3等开源模型逐渐提升性能，未来可以利用开源模型合成数据以减少成本

- 本项工作主要用代码合成8类的抽象图像，例如表格和地图，未来可以继续扩展到用代码控制机器人仿真器，生成特定的房屋布局和结构

- 我们认为视觉编码器是当前LLM的瓶颈，尤其是对于抽象图表而言，因此未来提升编码器图像分辨率可以增强LLM的细粒度认知能力

参考资料：

https://the-decoder.com/study-reveals-major-weaknesses-in-ais-ability-to-understand-diagrams-and-abstract-visuals/

https://arxiv.org/abs/2407.07053

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-08-08 17:45:12

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于模态,领衔,基准,推理,视觉,能力的资讯：

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型（MLLMs）因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手

2024-07-25 09:31:00

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...息处理全国重点实验室两大平台，长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士，研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第

2024-06-21 09:52:00

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型（

2024-09-18 13:31:00

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超闭

北大等出品，首个多模态版o1开源模型来了——代号LLaVA-o1，基于Llama-3.2-Vision模型打造，超越传统思维链提示

2024-11-20 09:42:00

英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平，其在纯文本性能甚至超过了LLM骨干模型，特别是在文本数学和编码

2024-09-24 13:36:00

AI也会「刷抖音」！清华领衔发布短视频全模态理解新模型 |

...失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异，更在视听联合任务中展现了卓越的性能，证明了其全面性和准确性。想要看懂短视频，除了视觉内容外，语音和音频等

2024-08-01 09:45:00

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...来自斯坦福李飞飞吴佳俊团队！HourVideo，一个用于评估多模态模型对长达一小时视频理解能力的基准数据集，包含多种任务。通过与现有模型对比，揭示当前模型在长视频理解上与人类

2024-11-11 13:31:00

清华团队提出大模型“密度定律”；足球领域首个视觉语言基础模型

...究团队及其合作者旨在为足球视频理解开发一个全面的多模态框架。具体来说，他们做出了以下贡献：（1）他们提出了 SoccerReplay-1988

2024-12-10 09:53:00

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonn

...数据泄露，从而反映模型的真实性能。研究团队测试了多模态大模型（LMMs）和纯文本大模型（LLMs）。对于LLMs的测试

2024-06-25 09:45:00

更多关于科技的资讯：

鸿蒙版皖事通升级上线“高效办成一件事”服务入口

大皖新闻讯近日，安徽省一体化政务服务平台“皖事通”（移动端）已经全面适配鸿蒙系统，依托鸿蒙意图框架实现“功能一步达”创新服务模式

2026-02-12 20:45:00

即时零售向全链路生活服务升级 “即用即买”成年货消费新趋势

随着春节的临近，采购年货成了消费者近期最主要的消费行为。伴随着即时零售的迅速发展，越来越多的商家加入了“春节不打烊”服务阵营

2026-02-12 21:23:00

从参与“墨子号”项目到助力“祖冲之三号” 这位“80后”博士

大皖新闻讯丙午马年春节的脚步越来越近，“80后”博士李东东依然忙碌着，身为科大国盾量子技术股份有限公司（以下简称“国盾量子”）的高级技术专家

2026-02-12 21:53:00

莱芜农商银行雪野旅游区公司业务营销中心：金融夜校进企业岁末

鲁网2月12日讯年关将至，购置年货、返乡出行、储蓄规划、消费理财成为企业员工的核心关切。为破解上班族“白天忙工作、无暇办金融”的困扰

2026-02-12 22:01:00

“电影想象力消费”入选2025年度“人文学科十大学术热点”

中国青年报客户端讯（中青报·中青网记者余冰玥）日前，由中国人民大学书报资料中心人文编辑部策划组织的2025年度“人文学科十大学术热点”公布

2026-02-12 22:46:00

商务部：持续推进出海服务资源优质供给和高效匹配

中新经纬2月12日电 12日，商务部召开例行新闻发布会。商务部新闻发言人何亚东在会上提到，持续推进出海服务资源的优质供给和高效匹配

2026-02-12 18:24:00

“万物科普”精彩继续 “智造”妙趣点亮新春扫码阅读手机版

2月11日上午，河西区图书馆“万物科普课堂”迎来第二场精彩活动。本次“神奇‘印’记——3D打印共塑马年新章”专场，将前沿的3D打印技术与激光切割工艺深度融合

2026-02-12 14:30:00

LV、迪奥和蒂芙尼因信息泄露在韩共被罚1.7亿元

中新经纬2月12日电 (张宁)据韩联社12日报道，12日，路易威登(LV)、迪奥(DIOR)、蒂芙尼(Tiffany&

2026-02-12 14:50:00

5 厘米高精度建模！中建八局以倾斜摄影技术为雄安数字建设注入

近日，在雄安新区启动区国家能源集团雄安基地项目施工现场，一架搭载五镜头传感器的无人机平稳降落，标志着项目施工总包单位中国建筑第八工程局有限公司顺利完成本月第三次全域实景数据采集工作

2026-02-12 14:54:00

春节保洁预约“秒光”凸显家政服务市场潜力

索乙家政服务是扩大内需的重要支点。随着居民人均服务性消费支出占比已接近居民消费的“半壁江山”，家政行业也迎来战略机遇期

2026-02-12 15:00:00

AI交互中的礼貌用语如何重塑人机关系

胡欣红最近，“要不要对AI说谢谢”引发社会热议。这场讨论并非空穴来风，据媒体报道，对于AI来说，每一次“谢谢”都相当于一次指令

2026-02-12 15:00:00

春节漫游天津：逛百年历史吃遍津门赏古镇灯火扫码阅读手机

2026-02-12 15:08:00

坐标李沧面向山东——全场景智慧生活新地标盛大启幕打造青岛

鲁网2月12日讯近日，华为智能生活馆·青岛乐客城店盛大启幕。作为青岛地区首个超千平智能生活馆，该店以约1317平方米的超大体量

2026-02-12 15:28:00

岚图汽车成功完成港股上市前置审批即将登陆香港联交所

2月12日，岚图汽车宣布已获得香港联交所的原则性同意，标志着其港股上市的全部前置监管审批流程已顺利完成。这一进程仅用四个月

2026-02-12 16:20:00

高端润滑油的智造密码

2月9日，润滑油北京有限公司员工加紧节前生产，确保高质量交付客户产品。本报记者程阳摄郑德辉文2月9日，中国石化报记者来到润滑油北京有限公司

2026-02-12 11:53:00

头条订阅服务

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构建多模态基准