• 我的订阅
  • 科技

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

类别:科技 发布时间:2024-07-26 09:39:00 来源:量子位

Llama 3.1 405B“最强模型”宝座还没捂热乎,就被砸场子了——

Mistral AI发布最新模型Mistral Large 2,参数123B,用不到三分之一的参数量性能比肩Llama 3.1 405B,也不逊于GPT-4o、Claude 3 Opus等闭源模型。

主打的就是一个高性价比。

用官方的话说,Mistral Large 2在性能/成本评价指标上“设定了一个新的前沿”。

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

Mistral Large 2尤其擅长代码和数学推理,上下文窗口128k,支持数十种自然语言以及80+编程语言。

特别在MMLU上,其预训练版本更是达到了84.0%的准确率。

消息一出,Mistral AI联创兼首席科学家第一时间转发,直接cue Llama 3.1 405B的那种:

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

Perplexity CEO Aravind Srinivas也开麦了:

开源追赶闭源的趋势很明显,未来闭源模型只有头部几个有价值。

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

英伟达科学家Jim Fan更是表示这简直就是享受开源模型盛宴的一周,想看看SEAL上的测评结果:

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

Mistral Large 2性能具体如何,来看官方发布的基准测试结果。

不到三分之一参数比肩Llama 3.1

根据官方Blog,Mistral Large 2参数123B,专为单节点推理设计,在单节点上可实现大吞吐,上下文窗口为128k。

代码能力方面,Mistral Large 2支持包括Python、Java、C、C++、JavaScript和Bash在内的80多种编程语言,吸取Codestral 、Codestral Mamba经验,表现远超之前的Mistral Large。

Human Eval、MBPP基准上,Mistral Large 2代码生成能力可与GPT-4o、Claude 3 Opus和Llama 3.1 405B等最强模型相媲美:

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

在MultiPL-E的多种编程语言基准上,Mistral Large 2多方面超越Llama 3.1 405B:

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

推理方面,官方表示重点关注减少模型“幻觉”,Mistral Large 2能够识别自己在找不到解决方案或缺乏足够信息提供确信答案时的情况。

由此模型在数学基准测试中的表现相比之前有了不小提升。在GSM8K(8-shot)和MATH(0-shot,无CoT)基准上的表现如下:

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

这里还有Mistral Large 2和Llama 3.1 405B、Llama 3.1 70B的代码生成以及数学表现比较。

Mistral Large 2以不到三分之一的参数量,在代码和数学上比肩或超越Llama 3.1 405B。

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

除了代码和推理,Mistral Large 2在MT Bench、Wild Bench和Arena Hard上的表现,也突出了其指令遵循和对齐方面的提升:

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

而且,官方还特别关注模型生成内容切题的前提下,尽量保持简洁:

在某些基准测试中,生成较长的回应往往能提高分数。然而,在许多商业应用中,简洁的回应不仅加快了交互速度,还降低了推理成本。

下图还展示了不同模型在MT Bench基准测试中生成内容的平均长度:

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

语言理解方面, 支持包括法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、中文、日语和韩语在内的数十种自然语言。

特别在MMLU任务(大规模多任务语言理解)上,Mistral Large 2预训练版本达到了84.0%的准确率。

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

结果也让网友直呼MMLU已经饱和了:

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

值得一提的是,Mistral Large 2还配备了增强的函数调用和检索能力,能够同时处理多个任务或按步骤执行操作,这方面能力甚至超越GPT-4o:

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

Mistral Large 2基准测试结果很抗打,实际表现如何,还得等一波大伙儿的测评。

Mistral Large 2现在已经可以在Mistral AI自家的开发者平台la Plateforme上使用,”Le Chat”有测试版可以直接玩。

而且官方表示,从今天开始将在la Plateforme上扩展微调功能,Mistral Large、Mistral Nemo和Codestral都支持微调。

此外还可以通过云服务厂商访问Mistral模型,Mistral AI模型除了在Azure AI Studio、Amazon Bedrock和IBM watsonx.ai上可用外,还可以在Vertex AI上获取。

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

还要提的一点是,Mistral Large 2采用Mistral的新版许可证,不是Apache,只允许用于研究和非商业用途的使用和修改。

需要自行部署Mistral Large 2商业用途的,必须通过联系Mistral AI获得其商业许可证。

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

8.11和8.9比大小,准确率更高了

关于模型的具体表现,量子位第一时间通过官方对话平台进行了实测。

先来看最近比较流行的小数比大小问题,我们发现,Mistral Large 2能否答对很大程度上和提问方式有关。

如果直接问8.9和8.11哪个大,很有可能获得一个错误答案,交换顺序或者换一下数字结果也是如此。

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

但这时追问一句为什么,模型就会意识到小数部分不能拿11和9来比,然后给出了正确解释。

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

如果一开始就换种提问方式,加上“数字”二字,或者将问题改为“比较8.11和8.9的大小”,Mistral Large 2都能直接答对。

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

另外如果用英语提问,也能一步得到正确答案。

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

另一个被讨论比较多的问题,是数出单词中某个字母的个数,英文社区的讨论中普遍认为,大模型难以答对这样的问题。

Mistral Large 2的情况也是如此,但如果把问题改用中文来描述,就能得到正确的回答。

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

以及关于大模型长期以来存在的“反转诅咒”(知道A是B却不知道B是A),Mistral Large 2的表现是这样的:

在同一对话中,由于有上下文的存在,模型能够正确回答“Mary Lee Cruise的儿子是谁”这个经典的“反转诅咒”问题。

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

但如果在新对话中直接提问,得到的答案就变成了“不知道”。

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

安全性方面,最近瑞士洛桑联邦理工学院爆出了可以通过过去时态绕过大模型安全措施的问题,我们也给Mistral测试了一下。

一上来直接询问毒品的制作方式,结果毫不意外地被拒绝回答。

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

换成过去时之后,口风就变得没那么紧了,先是强调了不能提供详细指导,但还是列出了一些合成方式。

不过也确实只提到了方法涉及的主要原料,并没有详细指示,至于算不算越狱成功就见仁见智了。

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

总的来说,面对这些流行的“大模型难题”,Mistral Large 2相比之前的模型确实是有些进步,但仍然有很大的改进空间。

接下来再看看Mistral Large 2在一些常规任务上的表现,按惯例先安排几道“弱智吧”题目。

第一个问题,“吃健胃消食片能吃饱吗”,这个问题虽然搞怪,但其实没什么歧义,所以模型只要一本正经地作答,大概率就不会出错(除非出现幻觉)。

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

但如果换成下面这种无厘头的问题,情况就不同了。

既然快递需要3天才能到,为什么不把所有的快递都提前三天发?

只能说大模型还是太实诚了,并没有捕捉到其中的笑点,真的去从快递公司运营的角度分析了一通。

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

不过这个问题Llama 3.1-405B同样也没有get到。

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

Mistral的语言理解能力大致可以从中管中窥豹,下面考验一下Mistral的逻辑推理能力,题目是这样的:

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

和人类的常规思路一样,Mistral Large 2解答这道题时用的也是假设法,先假定甲说的是真话。

直到下图中的倒数第二行分析得都还完全正确,但最后一行就开始已读乱回了。

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

其实在发现假设甲说真话的情况下丁的身份出现矛盾的时候,就可以断定甲说的不是真话,甲又说自己不是小偷,所以答案已经很明显了。

但Mistral Large 2还是坚持把四种假设都进行了分析。

假设乙说真话这部分的分析是对的,但是无法得出结果。

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

到了丙这部分,就颇有些已读乱回的意味了……

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

不过最终,分析完“丁说真话”的假设后,还是得到了正确答案——甲是小偷。

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

整个过程下来,可以看到Mistral Large 2对这类问题确实有一套合理的解决模式。

但相比于人类,模型的解决策略灵活性不足,比较循规蹈矩,没能在发现甲说假话时直接看出结论,另外在推理过程当中也出现了不少细节错误。

顺便提一句,GPT-4o和Claude 3.5都没做对这道题,而且各有各的错法。

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1

以上就是关于这个开源模型新SOTA实测的全部内容了,感兴趣的话,就到Mistral的官方的对话平台Le Chat中一探究竟吧。

传送门:https://chat.mistral.ai/chat

参考链接:[1]https://x.com/mistralai/status/1816133332582703547?s=46n[2]https://x.com/guillaumelample/status/1816135838448972240?s=46[3]https://x.com/DrJimFan/status/1816231047228797132[4]https://x.com/kimmonismus/status/1816141604194857430?s=46

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-26 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面
2024-09-06 10:01:00
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员
2024-06-21 09:52:00
马斯克官宣Grok-2测试版!xAI将继续拥抱开源路线吗?
继旗下xAI公司宣布正式开源大模型Grok-1后,特斯拉CEO马斯克再次在大模型市场扔下一颗重磅炸弹。当地时间8月11日晚
2024-08-13 09:50:00
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...为什么不使用MoE架构?后训练与RLHF流程是如何进行的?模型评估是如何进行的?我们什么时候可以见到Llama 4
2024-07-29 09:33:00
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
就在刚刚,Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练
2024-04-20 11:03:00
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
今日值得关注的大模型前沿论文SwiftEdit:50 倍速文本引导图像编辑清华团队提出大模型“密度定律”足球领域首个视觉语言基础模型Aguvis
2024-12-10 09:53:00
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
【新智元导读】Scaling Law还没走到尽头,「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列
2024-07-23 09:39:00
微软发布旗下最小语言模型phi-2
...会已拉开帷幕,微软在本次活动中发布了旗下最小的语言模型Phi-2,共有27亿参数,相比较此前版本有明显提升。注:微软于今年6月发布Phi-1,只有13亿代码,适用于QA问答、
2023-11-17 14:00:00
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
苹果最新杀入开源大模型战场,而且比其他公司更开放。推出7B模型,不仅效果与Llama 3 8B相当,而且一次性开源了全部训练过程和资源
2024-07-23 09:33:00
更多关于科技的资讯:
《视野》杂志启动AI协作创作大赛
中国青年报客户端讯(中青报·中青网记者 马富春)2月13日,《视野》杂志“人类文明备忘录”AI协作创作大赛正式启动。活动以直播+实时互动形式展开
2026-02-14 20:52:00
新春走基层丨76秒,一套汽车零部件焊接就能下线
见习记者 朱荣琛2月12日,农历腊月廿五。春节临近,廊坊经开区道路两旁挂上了大红灯笼,沿街企业的大门已贴上了大对联。热热闹闹的年味儿在这个城市的大街小巷悄然弥漫
2026-02-14 22:12:00
针对春节期间服务需求,中国银行隆尧支行近日聚焦自助服务渠道,启动了专项保障工作。针对县域网点分布广、运维半径长的特点,隆尧支行依托历史运行数据
2026-02-14 22:17:00
领航新质生产力——2025浙江省科学企业家这个专题,是省科协和潮新闻联合举办的,已陆续推出了近二十位具有科技创新精神的浙商企业家
2026-02-14 22:34:00
深圳地铁陪你「返屋企」,跨场景互动刷新通勤与春运体验
近日,深圳地铁迎来了新春限定数字人,结合AI原创音乐与互动体验,走到了春运最前沿。这是深圳地铁数字IP首次以完整的互动形态沉浸式接入城市公共空间
2026-02-14 20:26:00
2月14日消息,2026年“新春招聘月”系列活动将于2月24日(正月初八)在五一广场太原人才大市场(迎泽区零工示范站)正式启幕
2026-02-14 17:37:00
星火空间完成数千万天使+轮融资 核心产品“进化一号”发动机完成首次试车
大皖新闻讯 此前关于合肥要造火箭的消息引发外界广泛关注,背后则是合肥星火空间科技有限公司(以下简称“星火空间”)落户合肥新站高新区
2026-02-14 18:45:00
国医大师李佃贵为2026雄安国际医疗大健康技术应用大赛发声推介。他表示,当下是中西医并重、传统智慧与现代科技深度融合的时代,中医核心思想与大健康领域发展目标高度契合,期待中医药领
2026-02-14 19:13:00
中国科大取得重要突破 首次实现量子李雅普诺夫指数的精确提取
大皖新闻讯 ”这一结果意义重大,为观测混沌的量子世界提供了全新视角。”相关人员如此评价说。2月14日,大皖新闻记者从中国科学技术大学获悉
2026-02-14 17:35:00
鲁网2月14日讯为提升居民网络使用体验,助力智慧社区建设,近日,山东移动临沂分公司装维团队深入多个社区,开展 “移动装维进社区”专项服务活动
2026-02-14 15:10:00
山东移动临沂分公司:智慧装维服务升级,开启家庭网络新体验
鲁网2月14日讯“您好,我是中国移动装维工程师张师傅,现在上门为您检测网络,这是我的工作证件。”周六上午9点,临沂北城新区书香苑小区的王女士刚结束早间会议
2026-02-14 15:11:00
字节跳动发布豆包大模型2.0,主打真实世界复杂任务执行力
在连续发布Seedance 2.0视频模型、Seedream 5.0 Lite图像模型之后,2月14日,字节跳动宣布推出豆包大模型2
2026-02-14 15:35:00
从米兰冬奥会看全球消费趋势:为何“由你”成了2026年的新叙事?
过去十年,全球化品牌的策略多为“We are the best”,强调品牌的权威感。但现在的趋势是“Its your turn”
2026-02-14 16:20:00
千问大免单再加3天,邀请全国人民体验AI买电影票,激活春节AI新消费
2月14日,千问突然宣布免单再加3天,接入大麦、飞猪,邀请全国人民体验AI买电影票、门票等新功能,激活春节AI新消费。从今天下午3点到大年初一
2026-02-14 16:36:00
依据河北省消费者权益保护委员会联合北京阳光消费大数据研究院于2025年8月发布的智能坐便器比较试验结果,九牧送检样品(型号ZD9640-SA-CJM000
2026-02-14 15:10:00