• 我的订阅
  • 科技

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

类别:科技 发布时间:2024-11-20 09:43:00 来源:新智元

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

【新智元导读】以开源极客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。

作为欧洲的OpenAI,Mistral最近压力不小。

端侧小模型端不出来,对比评测的结果又遭到质疑。

上个月震撼登场的自家首款多模态大模型Pixtral 12B,也疑似遇到了成绩不如人的窘境。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

不过世间纷扰,留待时间之中去见分晓。

毕竟Mistral AI当年也是以开源极客之姿杀入江湖的,以后的以后,圈内人总会想起有个一言不合就甩出磁力链的公司吧。

按照惯例,在9月份甩出多模态Pixtral 12B的开源链接之后,Mistral会在一段时间后放出技术报告。

我们来看一下Mistral家的第一个MMLM有什么新花样。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

论文地址:https://arxiv.org/abs/2410.07073

开源代码:https://github.com/mistralai

首先,许多开源模型一般有个问题,就是为了多模态的性能而牺牲了本身的自然语言性能,之前英伟达的NVLM 1.0也谈到了这点。

Pixtral本次也是成功避开了这个缺陷,单单比较文本模型的性能,也在同等尺寸的模型中居于前列。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

另一点与大多数模型不同的是,Pixtral选择从头开始训练了一个全新的视觉编码器。

基于此,Pixtral 12B输入图片的分辨率和长宽比不受任何限制,并且在128K的上下文窗口范围内,想放多少张图片都行!

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

从论文的测试结果来看,Pixtral 12B明显优于其他类似大小的开源模型(比如Llama-3.2 11B和Qwen-2-VL 7B),

甚至在一些评测中,表现比Meta家的多模态老大哥Llama-3.2 90B还要好。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

最后,与开源模型一起,Mistral还贡献了一个开源基准测试MM-MT-Bench,用于在实际场景中评估视觉语言模型。

技术细节

当前的多模态大模型基本上都是:模态编码器 + 投影模块 + 大语言模型主干。

如果需要多模态输出,后面还会对称地拼接投影层和各种解码器。

所以,在模型结构方面,我们可以分部分来看Pixtral都做了哪些工作。

模型结构

Pixtral 12B整体为Transformer架构,在大规模交错图像和文本文档上进行了预训练,具备多轮、多图像对话的能力。

多模态解码器

Pixtral的大语言模型主干选择了自家的Mistral Nemo 12B,decoder-only架构。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

内部维度14336,层数40,32个头分为4组(GQA),词表大小131072。

视觉编码器

视觉编码器部分是随Pixtral 12B一起新鲜出炉的PixtralViT。

顾名思义,采用ViT架构打底,4亿参数量。同时为了能够处理各种分辨率和纵横比的图像,作者对标准架构进行了四项关键更改:

Break tokens:为了帮助模型区分具有相同patch数量(相同区域)但纵横比不同的图像,需要在图像行之间加入[IMAGE BREAK],在图像序列的末尾加上[IMAGE END]。 FFN中的门控:在隐藏层中使用门控,而非注意力块中的标准前馈层。 序列打包:为了在单个批次中有效地处理图像,作者沿序列维度将图像展平并连接起来,并构建了一个块对角掩码,以确保来自不同图像的patch之间没有注意力泄漏。 RoPE-2D:在自注意层中用相对旋转位置编码代替传统的绝对位置嵌入。虽然必须对学习到的位置嵌入进行插值以处理新的图像大小(通常以牺牲性能为代价),但相对位置编码自然而然地适合可变的图像大小。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

RoPE-2D的变换可以表示为:

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

这样的设计可以自然地以原始纵横比适应高分辨率和低分辨率图像,从而显著提高多模态任务的性能。

相比之下,传统的编码器一般就是针对ImageNet训练的,分辨率为224 × 224或336 × 336。

当应用到多模态语言模型(需要灵活执行标准分类任务,或者光学字符识别等任务)时,通常会将图像分解成更小的方块,然后再独立地将图块馈送到视觉编码器。

完整架构

Pixtral的视觉编码器通过两层全连接网络连接到多模态解码器(LLM)。MLP层维度不变,用于将视觉编码器的输出转换为解码器所需的输入嵌入大小,激活函数为GeLU。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

多模态解码器对图像token的处理方式与文本token相同,包括所有token的RoPE-1D位置编码。解码器使用了因果自注意力机制,能够平滑地促进多图像对话等能力。

MM-MT-Bench

大多数现有的多模态基准测试,衡量的是模型在给定输入图像的情况下执行某种形式的多项选择问答的能力。

这种能力有用,但还不够。

大模型说到底是给人用的,比如有多模态能力的小助手或者聊天机器人。

在纯文本领域,MT-Bench可以很好衡量这种性能,它采用独立LLM裁判根据参考答案对模型的输出进行评分。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

本文中,研究人员构建并发布了一个名为多模态MT-Bench(MM-MT-Bench)的新基准测试,风格与纯文本的MT-Bench类似,以评估指令调整的多模态模型的性能。

MM-MT-Bench总共包含92个对话(单回合对话69个,2回合对话18个,3回合对话4个,4回合对话1个),涵盖了广泛的实际使用案例,包括五类图像:图表、表格、PDF页面 、示意图和杂项。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

为了评估模型,研究人员在对话的所有轮次中并行查询模型,为过去的轮次提供参考答案作为历史记录。裁判会独立对每个回合进行评分,并提供整个对话历史记录。

评分依据正确性(提取的信息是否正确)和完整性(标准答案是否涵盖了参考文献中提出的所有要点)以1到10的等级为对话进行评分。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

MM-MT-Bench旨在模拟视觉语言模型的实际使用,用于提取、总结和推理图像内容。

作者手动整理了图像、提示和答案,并验证了标签编写者的答案,确保所有提示都需要参考图像输入才能正确回答。

实验测试结果表明,MM-MT-Bench的性能与LMSys Vision排行榜上的ELO排名高度相关。

实验结果

在评估Pixtral和基线的过程中,作者发现多模态模型的评估协议没有标准化,设置中的微小变化可能会极大地改变某些模型的性能(比如要求模型生成与参考答案完全匹配时,6.0和6就可能是不同的)。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

为了缓解这个问题,作者建议使用「Explicit」提示来明确指定参考答案所需的格式。

多模态性能

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

上表显示,在多模态基准测试中,Pixtral的性能大大优于所有同尺寸的开源模型,以及Claude-3 Haiku和Gemini-1.5 Flash 8B等闭源模型。

值得注意的是,Pixtral在针对实际用例的MM-MT-Bench上的表现优于所有同等尺寸的模型,而在LMSys Vision排行榜上,Pixtral 12B的性能接近最大的开源模型,Qwen2-VL 72B和Llama-3.2 90B。

不过,由于「Explicit」提示的原因,一些开源模型的性能远低于其报告的数字,这主要是由于模型没有遵循答案格式说明(例如,生成「The answer is 6.」而不是「Final answer:6」)。

为了与这些模型进行透明的比较,下面使用更宽松的指标进一步评估。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

语言性能

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

上表展示了在常见的纯文本基准测试(使用常见的提示和评估协议)中,Pixtral 12B与同等大小开源模型的比较结果。Pixtral没有为了追求多模态功能而牺牲文本理解,可以作为文本和视觉任务的通用模型。

参考资料:

https://arxiv.org/abs/2410.07073

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-20 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...人工智能实验室(GAIR Lab)推出的OlympicArena[1] (奥林匹克竞技场)满足了这个需求。奥林匹克学科竞赛不仅是对人类(碳基智能)思维敏捷性
2024-06-25 09:45:00
国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单
...而且它登上的这个排行榜LiveBench,虽然现在还没有大模型竞技场(LMSYS Chatboat Arena)那么广为人知
2024-11-22 09:54:00
...数智时代未来图景。从技术“秀场”中走出,迈向产业“竞技场”。本届创新大赛获奖的731个团队中有不少已经进入商业化落地阶段。研而优则实战,创而优则“变现”,数字创新打破学科边界
2025-05-04 10:59:00
AI竞技场,河南加速度!
...采访多家企业,了解河南如何通过硬核行动走进人工智能竞技场。基础丨前瞻布局,河南人工智能产业快速成长在2025世界人形机器人运动会上,来自中豫具身智能实验室与卓益得机器人联合研
2025-09-05 19:46:00
阿里云发布通义千问2.5,性能赶超GPT-4 Turbo
...最强大模型。历经一年多追赶,国产大模型终于进入核心竞技场,可与国外一流大模型一较高下。奋力追赶一年,成就最强中文大模型大模型技术爆发一年多,行业竞争态势激烈而又多变。通义千问
2024-05-09 12:00:00
帝都、魔都双双押宝 年底了AI圈居然还有高手
...024-11-19而阶跃的 “ 第二步 ”Step-1V 走的也不错。拿?模型竞技场 Chatbot Arena 的数据来看
2024-12-26 00:36:00
活力中国调研行|好用好玩!AI点亮百姓生活
...,智象未来的开源图像生成大模型在国际图像生成大模型竞技场榜单上迅速登顶,成为首个登顶该榜单的中国自研生成式人工智能模型。“以前剪辑视频需要花费大量时间,借助智象未来的AI创作
2025-07-04 13:33:00
...国内人工智能独角兽企业月之暗面(Kimi)发布新一代多模态思考模型k1.5。利用长短转化技术,以长链式思考技术改进短链式思考模型
2025-02-05 03:46:00
湖北首个省级机器人技术创新中心成立
...高水平研发团队,成为机器人领域人才的“蓄水池”与“竞技场”。创新中心展示的会写字的机械手。人民网记者 郭婷婷摄在挂牌现场,创新中心与10多所高校及科研院所签订研发协议,围绕高
2025-03-19 10:15:00
更多关于科技的资讯:
300亿年误差不超过一秒!中国科大实现锶原子光晶格钟新突破
大皖新闻讯 3月7日,大皖新闻记者从中国科学技术大学获悉,近期该校潘建伟、戴汉宁、陈宇翱、彭承志等科研人员在光钟研制方面取得里程碑式进展
2026-03-07 17:23:00
3月6日消息,“晋e行”作为山西高速公路出行服务的“数字大脑”,自2022年正式上线以来,以数字赋能为核心,标准化运营为抓手
2026-03-07 18:15:00
2026雄安国际机器人大赛征集机器人领域新技术新产品新场景。
2026-03-07 18:40:00
中新经纬3月7日电 (谢婧雯)你下班了,站在公司楼下,掏出手机。以前打车,要打开打车软件、输入目的地、比价、选车型、确认呼叫
2026-03-07 18:52:00
春晚机器人表演带火租赁市场 厦门景区商超一机难求
东南网3月7日讯(海峡导报记者 孙春燕/文 陆军航/图)马年央视春晚,人形机器人的“赛博表演”惊艳全球,也带火了线下租赁市场
2026-03-07 14:21:00
【读图】回眸十四五,最感人至深的是…… 扫码阅读手机版
2026全国两会(策划 郁建锋、王聪 文案 董琳晶 设计 贾静、杜珊、张晓钰)
2026-03-07 14:56:00
大河网讯 一束微光照亮“智造”星系,璀璨的电子信息产业在郑州航空港拔节生长。在这里,产业星光汇聚成河,超千亿级集群汇聚了从芯片研发到整机组装的产业链
2026-03-07 16:14:00
全国人大代表刘庆峰:未来AI硬件会走进千家万户
大皖新闻讯 2026年是“十五五”开局之年,也是人工智能深度赋能千行百业的关键一年。正在召开的2026年全国两会上,人工智能毫无意外地成为代表委员们热议的高频词
2026-03-07 16:48:00
视频摄制:冯阳 霍艳恩 赵新宇 王思宁
2026-03-07 10:02:00
中国青年医师IP孵化计划在杭州启动
2026年3月5日,以“AI链全球 生态共生”为主题的中国青年医师IP孵化计划在杭州启动。本次活动来自全国多所医院的专家
2026-03-07 10:40:00
租金两块钱一分钟 “共享机器人”即将入驻杭州商场、电影院
星枢智能的“机器人家族” 记者 杨亦淇 摄一台售价20多万元的春晚同款人形机器人,现在花5000元就能租一天;如果是基础款
2026-03-07 08:05:00
摘要:随着信息技术的快速发展,人工智能技术逐渐渗透金融机构的各类业务与管理环节,对传统金融运作模式产生了深刻影响。金融机构在激烈竞争和成本约束的背景下
2026-03-07 05:46:00
近日,省应急管理厅举行“AI+工业企业火情预警(火眼哨兵)”“AI+烟花爆竹监管(烟花卫士)”应用上线发布仪式。浙江拥有30余万家工业企业
2026-03-07 07:34:00
视频摄制:张晶、赵新宇、朱泊宇
2026-03-07 07:47:00
今年的全国两会上,“一人公司”(One Person Company,简称OPC)成为代表委员们热议的话题。全国人大代表
2026-03-07 07:04:00