• 我的订阅
  • 科技

多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染

类别:科技 发布时间:2024-08-22 09:50:00 来源:机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现出了越来越接近闭源的性能。

在这个「亩产八万斤」,「10 天一个 SoTA」的时代,简单易用、标准透明、可复现的多模态评估框架变得越来越重要,而这并非易事。

为解决以上问题,来自南洋理工大学 LMMs-Lab 的研究人员联合开源了 LMMs-Eval,这是一个专为多模态大型模型设计的评估框架,为多模态模型(LMMs)的评测提供了一站式、高效的解决方案。

多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染

代码仓库: https://github.com/EvolvingLMMs-Lab/lmms-eval 官方主页: https://lmms-lab.github.io/ 论文地址: https://arxiv.org/abs/2407.12772 榜单地址:https://huggingface.co/spaces/lmms-lab/LiveBench

自 2024 年 3 月发布以来, LMMs-Eval 框架已经收到了来自开源社区、公司和高校等多方的协作贡献。现已在 Github 上获得 1.1K Stars,超过 30+ contributors,总计包含 80 多个数据集和 10 多个模型,并且还在持续增加中。

多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染

标准化测评框架

为了提供一个标准化的测评平台,LMMs-Eval 包含了以下特性:

    统一接口: LMMs-Eval 在文本测评框架 lm-evaluation-harness 的基础上进行了改进和扩展,通过定义模型、数据集和评估指标的统一接口,方便了使用者自行添加新的多模态模型和数据集。 一键式启动:LMMs-Eval 在 HuggingFace 上托管了 80 多个(且数量不断增加)数据集,这些数据集精心从原始来源转换而来,包括所有变体、版本和分割。用户无需进行任何准备,只需一条命令,多个数据集和模型将被自动下载并测试,等待几分钟时间即可获得结果。 透明可复现:LMMs-Eval 内置了统一的 logging 工具,模型回答的每一题以及正确与否都会被记录下来, 保证了可复现性和透明性。同时也方便比较不同模型的优势与缺陷。

LMMs-Eval 的愿景是未来的多模态模型不再需要自行编写数据处理、推理以及提交代码。在当今多模态测试集高度集中的环境下,这种做法既不现实,测得的分数也难以与其他模型直接对比。通过接入 LMMs-Eval,模型训练者可以将更多精力集中在模型本身的改进和优化上,而不是在评测和对齐结果上耗费时间。

评测的「不可能三角」

LMMs-Eval 的最终目标是找到一种 1. 覆盖广 2. 成本低 3. 零数据泄露 的方法来评估 LMMs。然而,即使有了 LMMs-Eval,作者团队发现想同时做到这三点困难重重,甚至是不可能的。

如下图所示,当他们将评估数据集扩展到 50 多个时,执行这些数据集的全面评估变得非常耗时。此外,这些基准在训练期间也容易受到污染的影响。为此, LMMs-Eval 提出了 LMMs-Eval-Lite 来兼顾广覆盖和低成本。他们也设计了 LiveBench 来做到低成本和零数据泄露。

多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染

LMMs-Eval-Lite: 广覆盖轻量级评估

多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染

在评测大模型时,往往庞大的参数量和测试任务会使得评测任务的时间和成本急剧上升,因此大家往往会选择使用较小的数据集或是使用特定的数据集进行评测。然而,有限的评测往往会使得对于模型能力的理解有所缺失,为了同时兼顾评测的多样性和评测的成本,LMMs-Eval 推出了 LMMs-Eval-Lite

多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染

LMMs-Eval-Lite 旨在构建一个简化的基准测试集,以在模型开发过程中提供有用且快速的信号,从而避免现在测试的臃肿问题。如果我们能够找到现有测试集的一个子集,在这上面的模型之间的绝对分数和相对排名与全集保持相似,那么我们可以认为修剪这些数据集是安全的。

为了找到数据集中的数据显著点,LMMs-Eval 首先使用 CLIP 和 BGE 模型将多模态评测数据集转换为向量嵌入的形式并使用 k-greedy 聚类的方法找到了数据显著点。在测试中,这些规模较小的数据集仍然展现出与全集相似的评测能力。

多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染

随后 LMMs-Eval 使用了相同的方法制作了涵盖更多数据集的 Lite 版本,这些数据集旨在帮助人们节省开发中的评测成本,以便快速判断模型性能

多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染

LiveBench: LMMs 动态测试

传统基准侧重于使用固定问题和答案的静态评估。随着多模态研究的进展,开源模型在分数比较往往优于商用模型,如 GPT-4V,但在实际用户体验中却有所不及。动态的、用户导向的 Chatbot Arenas 和 WildVision 在模型评估中越来越受欢迎,但是它们需要收集成千上万的用户偏好,评估成本极高。

LiveBench 的核心思想是在一个不断更新的数据集上评估模型的性能,以实现零污染且保持低成本。作者团队从网络上收集评估数据,并构建了一条 pipeline,自动从新闻和社区论坛等网站收集最新的全球信息。为了确保信息的及时性和真实性,作者团队从包括 CNN、BBC、日本朝日新闻和中国新华社等 60 多个新闻媒体,以及 Reddit 等论坛中选择来源。具体步骤如下:

    捕捉主页截图并去除广告和非新闻元素。 使用当前最强大的多模态模型(如 GPT4-V、Claude-3-Opus 和 Gemini-1.5-Pro)设计问题和答案集。由另一模型审查和修订 问题,确保准确性和相关性。 人工审查最终的问答集,每月收集约 500 个问题,保留 100-300 个作为最终的 \livebench 问题集。 采用 LLaVA-Wilder 和 Vibe-Eval 的评分标准 -- 评分模型根据提供的标准答案评分,得分范围为 [1, 10]。默认评分模型为 GPT-4o,还包括 Claude-3-Opus 和 Gemini 1.5 Pro 作为备选。最终的报告结果将基于得分转换为 0 到 100 的准确率指标。

多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染

未来也可以在我们动态更新的榜单里查看多模态模型在每个月动态更新的最新评测数据,以及在榜单上的最新评测的结果。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-22 11:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有
2024-10-18 09:47:00
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5” 3月14日,商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”,在多模态多任务处理能力方面实现多项全新
2023-03-15 13:30:00
腾讯开源最大MoE大语言模型!3D大模型同时支持文/图生成,晒混元模型及应用全家桶
...混元API服务调用,可满足文生文、图生文、文生图等不同模态以及角色扮演、FunctionCall、代码等不同专项的模型需求
2024-11-06 09:41:00
击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三
...云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示,云从科技的从容大模型在该体系中的平均得分为 65
2024-06-29 09:36:00
AI安全守护计划启动!信通院牵头,AIIA安全治理委员会发布三类模型安全评测
...内容可溯源的能力。目前主要针对图片、音频和视频等多模态内容,采用隐式水印方法建立互认机制。文本内容上的实现仍有一定技术难度,后续将持续有针对性地突破。 此外,计划将通过AI
2024-07-25 09:26:00
《金融大模型应用评测指南》发布,系全国首个以金融业务能力...
...能,指南定义了包括文本分类、信息抽取等在内的11项单模态、图文检索、视频问答等在内的6项多模态指标要求。金融安全与价值对齐能力方面,围绕模型的可靠性、可解释性以及隐私保护,指
2024-12-06 17:16:00
GPT-4就是冲着赚钱来的!
...本相似,主要提升了语言模型方面的能力,并添加了“多模态”的图片识别功能。此外,GPT-4 将“单词最大输出限制”提高到了 25000 个单词
2023-03-16 09:00:00
用模型进化模型,智源发布开源套装;大模型带不来AGI,LeCun提出三大挑战 | 最前线
...展的指令规范,调用其他模型的API和第三方工具,弥补单模态对话模型的局限性。AquilaChat的文字对话能力。图源
2023-06-10 13:09:00
百川智能发布baichuan3稳定语言模型
...,大模型的全能特性发挥着至关重要的作用。首先,其多模态学习能力能够整合文本、影像、声音等多种类型的医疗数据,提供更全面、准确的分析和诊断。其次,大模型的深层推理能力有助于复杂
2024-01-29 19:57:00
更多关于科技的资讯:
葵花药业×淘宝闪购签署战略合作:共探“AI+超级入口”下的医药即时零售新范式
11月28日,在2025淘宝闪购“聚势共赢”医药即时电商峰会现场,葵花药业集团与淘宝闪购正式签署战略合作协议,成为淘宝闪购医药健康领域首批战略级合作伙伴之一
2025-12-03 10:11:00
解码三一重能:风电龙头的突围与出海
十月的北京,三一重能南口产业园区内,一座数十米高的风力发电机静静运转,园区内却是一派繁忙景象。作为三一集团在京重要产业集群
2025-12-03 10:11:00
摘要:本文通过对不同地区互联网企业中统计学专业毕业生薪资的对比分析,探讨薪资分布的现状及其影响因素。研究发现,一线城市和二线城市在薪资水平上存在显著差异
2025-12-03 06:16:00
“张叔叔,这银行卡的密码可不能随便告诉别人,就连短信验证码也得藏好,那可是您账户的‘第二把钥匙’”。中信银行石家庄分行网点工作人员一边为70多岁的张叔叔递上一杯水
2025-12-02 10:21:00
中国移动成功举办“AI赋能医院后勤管理新发展”论坛
2025年11月27至29日,由全国卫生产业企业管理协会医院后勤管理发展分会主办的2025年学术会议在杭州召开。中国移动受邀参加“新质生产力助力医院后勤高质量发展”主论坛
2025-12-02 11:03:00
腾讯云姚一兆:用全栈AI助力具身智能赛道加速发展
“具身智能是AI赛道中的焦点,其商业化更依赖技术平台、场景适配与生态协同。腾讯云愿意提供全栈AI服务能力,助力具身智能赛道与广大企业共同发展
2025-12-02 11:03:00
在大健康消费升级与抗衰需求爆发的今天,麦角硫因作为“线粒体级”超级抗氧化剂,已成为膳食补充剂领域的核心赛道。据天猫国际发布的《2023全球超级成分趋势白皮书》显示
2025-12-02 11:31:00
企业数字化转型不断深化,业务系统的可用性、数据安全性和架构弹性正成为企业核心竞争力的重要组成部分。云服务器作为企业 IT 基础设施的底座
2025-12-02 11:42:00
11月21日,富德生命人寿保险股份有限公司在河北石家庄举行以“全维健康守护 创造美好生活”为主题的健康险产品矩阵暨服务升级发布会
2025-12-02 12:11:00
GeneIII仅三麦角硫因胶囊凭借 99.99% 行业顶尖纯度、原生生物合成技术壁垒、三甲医院人体临床验证背书,成为兼具安全性
2025-12-02 14:27:00
从梅酒到书籍:梅见的文化升维之路
步入繁华的商业街区,不难发现一个耐人寻味的现象:店铺橱窗中的传统文化元素,正以近乎重复的方式不断上演。印着汉字 logo 的T恤
2025-12-02 14:35:00
丝玫瑰携手首玺丽格 科创驱动美力升级
2025年12月2日,由键凯科技旗下医美产品线品牌——丝玫瑰®(SILKROSE)与北京首玺丽格联合举办的“中国‘智’造
2025-12-02 15:35:00
白酒+体育IP重构行业营销新范式,五粮液世界杯联名款京东首发
鲁网12月2日讯2026年美加墨男足世界杯分组抽签仪式将于当地时间12月5日在美国华盛顿举行。同日,五粮液FIFA2026世界杯官方联名款产品将在京东直播间重磅首发上市
2025-12-02 15:36:00
从“车间老师傅”到“门店销冠”:飞书AI正在重塑吉利汽车研究院、亚朵酒店的一线战场
当AI逐渐褪去神秘面纱,谁是这场技术变革真正的操盘手?答案是:一线业务人。 近日,首届「飞书AI效率先锋全国大赛」华东赛区半决赛圆满收官
2025-12-02 15:58:00
中新经纬12月2日电 题:即时零售不再打“补贴战”了作者 江瀚 盘古智库高级研究员随着资本耐心减弱,单纯依赖补贴拉动的增长已难以为继
2025-12-02 16:09:00