• 我的订阅
  • 科技

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

类别:科技 发布时间:2024-11-20 09:43:00 来源:新智元

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

【新智元导读】以开源极客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。

作为欧洲的OpenAI,Mistral最近压力不小。

端侧小模型端不出来,对比评测的结果又遭到质疑。

上个月震撼登场的自家首款多模态大模型Pixtral 12B,也疑似遇到了成绩不如人的窘境。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

不过世间纷扰,留待时间之中去见分晓。

毕竟Mistral AI当年也是以开源极客之姿杀入江湖的,以后的以后,圈内人总会想起有个一言不合就甩出磁力链的公司吧。

按照惯例,在9月份甩出多模态Pixtral 12B的开源链接之后,Mistral会在一段时间后放出技术报告。

我们来看一下Mistral家的第一个MMLM有什么新花样。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

论文地址:https://arxiv.org/abs/2410.07073

开源代码:https://github.com/mistralai

首先,许多开源模型一般有个问题,就是为了多模态的性能而牺牲了本身的自然语言性能,之前英伟达的NVLM 1.0也谈到了这点。

Pixtral本次也是成功避开了这个缺陷,单单比较文本模型的性能,也在同等尺寸的模型中居于前列。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

另一点与大多数模型不同的是,Pixtral选择从头开始训练了一个全新的视觉编码器。

基于此,Pixtral 12B输入图片的分辨率和长宽比不受任何限制,并且在128K的上下文窗口范围内,想放多少张图片都行!

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

从论文的测试结果来看,Pixtral 12B明显优于其他类似大小的开源模型(比如Llama-3.2 11B和Qwen-2-VL 7B),

甚至在一些评测中,表现比Meta家的多模态老大哥Llama-3.2 90B还要好。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

最后,与开源模型一起,Mistral还贡献了一个开源基准测试MM-MT-Bench,用于在实际场景中评估视觉语言模型。

技术细节

当前的多模态大模型基本上都是:模态编码器 + 投影模块 + 大语言模型主干。

如果需要多模态输出,后面还会对称地拼接投影层和各种解码器。

所以,在模型结构方面,我们可以分部分来看Pixtral都做了哪些工作。

模型结构

Pixtral 12B整体为Transformer架构,在大规模交错图像和文本文档上进行了预训练,具备多轮、多图像对话的能力。

多模态解码器

Pixtral的大语言模型主干选择了自家的Mistral Nemo 12B,decoder-only架构。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

内部维度14336,层数40,32个头分为4组(GQA),词表大小131072。

视觉编码器

视觉编码器部分是随Pixtral 12B一起新鲜出炉的PixtralViT。

顾名思义,采用ViT架构打底,4亿参数量。同时为了能够处理各种分辨率和纵横比的图像,作者对标准架构进行了四项关键更改:

Break tokens:为了帮助模型区分具有相同patch数量(相同区域)但纵横比不同的图像,需要在图像行之间加入[IMAGE BREAK],在图像序列的末尾加上[IMAGE END]。 FFN中的门控:在隐藏层中使用门控,而非注意力块中的标准前馈层。 序列打包:为了在单个批次中有效地处理图像,作者沿序列维度将图像展平并连接起来,并构建了一个块对角掩码,以确保来自不同图像的patch之间没有注意力泄漏。 RoPE-2D:在自注意层中用相对旋转位置编码代替传统的绝对位置嵌入。虽然必须对学习到的位置嵌入进行插值以处理新的图像大小(通常以牺牲性能为代价),但相对位置编码自然而然地适合可变的图像大小。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

RoPE-2D的变换可以表示为:

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

这样的设计可以自然地以原始纵横比适应高分辨率和低分辨率图像,从而显著提高多模态任务的性能。

相比之下,传统的编码器一般就是针对ImageNet训练的,分辨率为224 × 224或336 × 336。

当应用到多模态语言模型(需要灵活执行标准分类任务,或者光学字符识别等任务)时,通常会将图像分解成更小的方块,然后再独立地将图块馈送到视觉编码器。

完整架构

Pixtral的视觉编码器通过两层全连接网络连接到多模态解码器(LLM)。MLP层维度不变,用于将视觉编码器的输出转换为解码器所需的输入嵌入大小,激活函数为GeLU。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

多模态解码器对图像token的处理方式与文本token相同,包括所有token的RoPE-1D位置编码。解码器使用了因果自注意力机制,能够平滑地促进多图像对话等能力。

MM-MT-Bench

大多数现有的多模态基准测试,衡量的是模型在给定输入图像的情况下执行某种形式的多项选择问答的能力。

这种能力有用,但还不够。

大模型说到底是给人用的,比如有多模态能力的小助手或者聊天机器人。

在纯文本领域,MT-Bench可以很好衡量这种性能,它采用独立LLM裁判根据参考答案对模型的输出进行评分。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

本文中,研究人员构建并发布了一个名为多模态MT-Bench(MM-MT-Bench)的新基准测试,风格与纯文本的MT-Bench类似,以评估指令调整的多模态模型的性能。

MM-MT-Bench总共包含92个对话(单回合对话69个,2回合对话18个,3回合对话4个,4回合对话1个),涵盖了广泛的实际使用案例,包括五类图像:图表、表格、PDF页面 、示意图和杂项。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

为了评估模型,研究人员在对话的所有轮次中并行查询模型,为过去的轮次提供参考答案作为历史记录。裁判会独立对每个回合进行评分,并提供整个对话历史记录。

评分依据正确性(提取的信息是否正确)和完整性(标准答案是否涵盖了参考文献中提出的所有要点)以1到10的等级为对话进行评分。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

MM-MT-Bench旨在模拟视觉语言模型的实际使用,用于提取、总结和推理图像内容。

作者手动整理了图像、提示和答案,并验证了标签编写者的答案,确保所有提示都需要参考图像输入才能正确回答。

实验测试结果表明,MM-MT-Bench的性能与LMSys Vision排行榜上的ELO排名高度相关。

实验结果

在评估Pixtral和基线的过程中,作者发现多模态模型的评估协议没有标准化,设置中的微小变化可能会极大地改变某些模型的性能(比如要求模型生成与参考答案完全匹配时,6.0和6就可能是不同的)。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

为了缓解这个问题,作者建议使用「Explicit」提示来明确指定参考答案所需的格式。

多模态性能

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

上表显示,在多模态基准测试中,Pixtral的性能大大优于所有同尺寸的开源模型,以及Claude-3 Haiku和Gemini-1.5 Flash 8B等闭源模型。

值得注意的是,Pixtral在针对实际用例的MM-MT-Bench上的表现优于所有同等尺寸的模型,而在LMSys Vision排行榜上,Pixtral 12B的性能接近最大的开源模型,Qwen2-VL 72B和Llama-3.2 90B。

不过,由于「Explicit」提示的原因,一些开源模型的性能远低于其报告的数字,这主要是由于模型没有遵循答案格式说明(例如,生成「The answer is 6.」而不是「Final answer:6」)。

为了与这些模型进行透明的比较,下面使用更宽松的指标进一步评估。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

语言性能

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

上表展示了在常见的纯文本基准测试(使用常见的提示和评估协议)中,Pixtral 12B与同等大小开源模型的比较结果。Pixtral没有为了追求多模态功能而牺牲文本理解,可以作为文本和视觉任务的通用模型。

参考资料:

https://arxiv.org/abs/2410.07073

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-20 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...人工智能实验室(GAIR Lab)推出的OlympicArena[1] (奥林匹克竞技场)满足了这个需求。奥林匹克学科竞赛不仅是对人类(碳基智能)思维敏捷性
2024-06-25 09:45:00
国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单
...而且它登上的这个排行榜LiveBench,虽然现在还没有大模型竞技场(LMSYS Chatboat Arena)那么广为人知
2024-11-22 09:54:00
...数智时代未来图景。从技术“秀场”中走出,迈向产业“竞技场”。本届创新大赛获奖的731个团队中有不少已经进入商业化落地阶段。研而优则实战,创而优则“变现”,数字创新打破学科边界
2025-05-04 10:59:00
AI竞技场,河南加速度!
...采访多家企业,了解河南如何通过硬核行动走进人工智能竞技场。基础丨前瞻布局,河南人工智能产业快速成长在2025世界人形机器人运动会上,来自中豫具身智能实验室与卓益得机器人联合研
2025-09-05 19:46:00
阿里云发布通义千问2.5,性能赶超GPT-4 Turbo
...最强大模型。历经一年多追赶,国产大模型终于进入核心竞技场,可与国外一流大模型一较高下。奋力追赶一年,成就最强中文大模型大模型技术爆发一年多,行业竞争态势激烈而又多变。通义千问
2024-05-09 12:00:00
帝都、魔都双双押宝 年底了AI圈居然还有高手
...024-11-19而阶跃的 “ 第二步 ”Step-1V 走的也不错。拿?模型竞技场 Chatbot Arena 的数据来看
2024-12-26 00:36:00
活力中国调研行|好用好玩!AI点亮百姓生活
...,智象未来的开源图像生成大模型在国际图像生成大模型竞技场榜单上迅速登顶,成为首个登顶该榜单的中国自研生成式人工智能模型。“以前剪辑视频需要花费大量时间,借助智象未来的AI创作
2025-07-04 13:33:00
...国内人工智能独角兽企业月之暗面(Kimi)发布新一代多模态思考模型k1.5。利用长短转化技术,以长链式思考技术改进短链式思考模型
2025-02-05 03:46:00
湖北首个省级机器人技术创新中心成立
...高水平研发团队,成为机器人领域人才的“蓄水池”与“竞技场”。创新中心展示的会写字的机械手。人民网记者 郭婷婷摄在挂牌现场,创新中心与10多所高校及科研院所签订研发协议,围绕高
2025-03-19 10:15:00
更多关于科技的资讯:
中新经纬12月26日电 据金融监管总局网站消息,为贯彻落实党的二十大和二十届历次全会及中央经济工作会议、中央金融工作会议精神
2025-12-26 21:58:00
拒绝闲置,学而思携手华为打造“亲子共享”学习机
12月25日,学而思与华为深度合作,联合推出基于华为擎云 C5e定制的学而思学习机。这款新品定位为入门款学习机,不仅整合了学而思深耕20余年的优质教育资源与前沿AI技术
2025-12-26 08:49:00
北京远行摘得“金厦奖”,与城市共繁荣
聚焦行业前沿,赋能城市生长。2025年12月23日,第22届中国写字楼产业园发展论坛于北京启幕。这场商业地产领域的权威盛会
2025-12-26 09:20:00
福建首个AI+教育大模型发布它的“大脑”装了6T教育专项数据,既“懂产业”,还“懂学生”“懂教学”东南网12月26日讯 (海峡导报记者 梁静 通讯员 曾妙龄 何贻婷 ) 昨日
2025-12-26 09:35:00
12月12日,由中国通信标准化协会主办、中国信息通信研究院承办的“2025 AI云产业发展大会”在北京成功召开。会上公布了2025年“软件工程智能化领航者”创新应用实践评选结果
2025-12-26 10:49:00
王涵Labubu爆红无疑是2025年最热门的经济现象之一。从外国粉丝排队数小时“抢娃”,到二手市场上部分Labubu溢价超30倍
2025-12-26 10:50:00
天柱山据《中国青年报》报道,清晨六点,北京的胡同里,宠物托管师刘硕已开始一天的忙碌。她轻手轻脚地给客户家的猫咪添粮换水
2025-12-26 10:50:00
破解家政撮合难题,58同城“AI直聘”入选“人工智能+”创新应用
“我想找一位会做饭、做家务的不住家阿姨,最好会做面食和煲汤,可以下午13:00到17:00上户。”在58同城“AI直聘”上
2025-12-26 10:50:00
变频空调哪个牌子技术最强?深度解析空调行业技术标准
变频空调哪个牌子技术最强?这个问题若仅停留在纸面参数的比较,无异于隔靴搔痒。真正的技术巅峰,在于品牌能否将顶尖的实验室数据
2025-12-26 10:54:00
欧姆龙发布《2025统合报告》:以可持续战略驱动未来增长
近日,欧姆龙集团(以下简称"欧姆龙")正式发布了《2025统合报告》,呈现了在"Shaping the Future 2030(以下简称"SF2030")"长期战略指引下
2025-12-26 13:51:00
推开邮储银行唐山玉田县支行的玻璃门,浓郁咖啡香与温暖灯光扑面而来。理财经理正为咨询客户手冲咖啡,这并非咖啡馆日常,而是该支行周三下午的寻常场景
2025-12-26 10:54:00
中新经纬12月26日电 据韩联社25日消息,韩国电商巨头酷澎25日发布新闻资料称,公司凭借通过数字鉴定获取的证据锁定泄露用户信息的前员工
2025-12-26 11:03:00
厦门网讯(厦门日报佘峥)福建省首个AI+教育大模型——“文夔”昨天正式发布,它不仅能帮助教师批改作业、试卷,还能从招聘信息中做出分析
2025-12-26 07:59:00
上传一张聊天截图,便能智能分析用户画像;孕期有疑问,即可一键对话获取专业信息……人工智能高速发展的时代,垂直母婴领域也迎来新的应用落地
2025-12-26 06:39:00
惠及11个停车场 可免费领取 元旦来武林商圈停车有福利
元旦武林商圈有多热闹?购物、打卡、看表演、逛面包节……活动多到停不下来!但你是不是也在担心:车往哪儿停?停车费是不是很贵
2025-12-26 06:39:00