• 我的订阅
  • 科技

精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B

类别:科技 发布时间:2024-07-26 09:36:00 来源:机器之心Pro

精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B

AI 竞赛正以前所未有的速度加速,继 Meta 昨天推出其新的开源 Llama 3.1 模型之后,法国 AI 初创公司 Mistral AI 也加入了竞争。

刚刚,Mistral AI 宣布其旗舰开源模型的下一代产品:Mistral Large 2,该模型拥有 1230 亿个参数,在代码生成、数学、推理等方面与 OpenAI 和 Meta 的最新尖端模型不相上下。

紧随 Llama 3.1 405B 之后,Mistral Large 2 的发布让开源大模型的赛道一下子热闹起来,而这一模型的特点是 ——「足够大」。

具体来说,虽然 Mistral Large 2 参数量低于 Llama 3.1 的 4050 亿,但两者性能接近。并且在多个基准测试中与 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 媲美。

精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B

今年 2 月,Mistral AI 推出了最初的 Large 模型,其上下文窗口包含 32,000 个 token,新版模型在此基础上构建,具有更大的 128,000 个上下文窗口(大约相当于一本 300 页的书)—— 与 OpenAI 的 GPT-4o 和 GPT-4o mini 以及 Meta 的 Llama 3.1 相匹配。

目前,Mistral Large 2 支持数十种语言,包括法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、中文、日语和韩语,以及 80 多种编程语言,包括 Python、Java、C、C++、JavaScript 和 Bash。

Mistral AI 指出,新模型将继续突破成本效率、速度和性能的界限,同时为用户提供新功能,包括高级函数调用和检索,以构建高性能的 AI 应用。

不过,值得注意的是,Mistral Large 2 虽然是开放的,但只限于研究和非商业用途。它提供了开放的权重,允许第三方根据自己的需求对模型进行微调。这一协议是对用户使用条件的一个重要限制。对于需要自行部署 Mistral Large 2 的商业用途,必须提前获取 Mistral AI 商业许可证。

性能表现

在多项评估指标上,Mistral Large 2 刷新了性能和服务成本的新标准。特别是在 MMLU 上,预训练版本实现了 84.0% 的准确率。

代码与推理

Mistral AI 基于此前 Codestral 22B 和 Codestral Mamba 的经验,在很大一部分代码上训练了 Mistral Large 2。

Mistral Large 2 的表现远远优于上一代的 Mistral Large,并且与 GPT-4o、Claude 3 Opus 和 Llama 3 405B 等顶尖模型相当。

精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B

Mistral AI 还投入了大量精力来增强模型的推理能力,重点之一就是尽量减少模型产生「幻觉」或产生看似合理但实际上不正确或不相关信息的倾向。这是通过微调模型来实现的,使其在回复时更加谨慎和敏锐,确保其提供可靠和准确的输出。

此外,在找不到解决方案或没有足够的信息来提供一个自信的答案时,Mistral Large 2 会承认(自己答不出来)。这种对准确性的追求体现在了数学基准测试中模型性能的提高,下图展示了其增强的推理和解决问题的能力:

精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B

代码生成基准上的性能准确性(所有模型都通过相同的评估流程进行基准测试)。

精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B

MultiPL-E 上的性能准确性(除 paper 外,所有模型都通过相同的评估流程进行基准测试)。

精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B

GSM8K(8-shot)和 MATH(0-shot,无 CoT)生成基准上的性能准确性(所有模型都通过相同的评估流程进行基准测试)。

指令遵循与对齐

Mistral AI 大幅提升了 Mistral Large 2 的指令遵循和对话能力。新的 Mistral Large 2 尤其擅长遵循精确指令和处理长时间的多轮对话。

以下是其在 MT-Bench、Wild Bench 和 Arena Hard 基准测试中的表现:

精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B

模型在通用对齐基准测试中的性能(所有模型均通过相同的评估 pipeline 进行测试)

在某些基准测试中,生成较长的回答往往会提高评分。然而,在许多商业应用中,简洁至关重要,这是因为简洁的模型生成能够加快交互速度,并降低推理成本。

所以 Mistral AI 花费了大量精力,确保生成的内容尽可能简明扼要。

下图展示了在 MT Bench 基准测试的问题上,不同模型生成的回答的平均长度:

精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B

语言多样性

当今大量的商业化应用场景涉及处理多语言文档。Mistral Large 2 在大量多语言数据上进行了训练,特别是在英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、俄语、中文、日语、韩语、阿拉伯语和印地语方面都表现优异。

以下是 Mistral Large 2 在多语言 MMLU 基准测试中的性能结果,主要是与之前的 Mistral Large、Llama 3.1 模型以及 Cohere 的 Command R+ 的对比:

精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B

精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B

多语言 MMLU 性能(以基础预训练模型测量)

工具使用与函数调用

Mistral Large 2 配备了增强的函数调用和检索技能,经过训练能够熟练地执行并行和顺序函数调用,使其能够成为复杂业务应用程序的强大引擎。

下图为 Mistral Large 2 在函数调用上与其他主流模型的准确性对比:

精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B

试用 Mistral Large 2

用户可以通过 la Plateforme 上使用 Mistral Large 2,名称为 mistral-large-2407 ,并在 le Chat 上测试。它的版本是 24.07(Mistral 对所有模型采用的都是 YY.MM 版本编号系统),API 名称为 mistral-large-2407。

指令模型的权重已提供,托管在 HuggingFace 上。

权重链接:https://huggingface.co/mistralai/Mistral-Large-Instruct-2407

Mistral AI 正在将 la Plateforme 上的产品整合为两个通用模型:Mistral Nemo 和 Mistral Large,以及两个专业模型:Codestral 和 Embed。随着他们逐步淘汰 la Plateforme 上的旧模型,所有的 Apache 模型(包括 Mistral 7B、Mixtral 8x7B 和 8x22B、Codestral Mamba、Mathstral)仍然可以使用 Mistral AI 的 SDK——mistral-inference 和 mistral-finetune 进行部署和微调。

从今天开始,他们扩展了 la Plateforme 上的微调功能:现在,这些功能适用于 Mistral Large、Mistral Nemo 和 Codestral。

此外,Mistral AI 与云服务提供商都有合作,Mistral Large 2 将很快登陆这些平台。Mistral AI 扩大了与 Google Cloud Platform 的合作,通过 Managed API 将 Mistral AI 的模型引入 Vertex AI。与此同时,还可以在 Amazon Bedrock、Azure AI Studio 和 IBM watsonx.ai 上找到。

精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B

https://mistral.ai/news/mistral-large-2407/

https://venturebeat.com/ai/mistral-shocks-with-new-open-model-mistral-large-2-taking-on-llama-3-1/

https://techcrunch.com/2024/07/24/mistral-releases-large-2-meta-openai-ai-models/

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-26 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...这是该团队在继 PMC-LLaMA 后,在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中,大语言模型已经有了广
2024-09-30 09:51:00
指令跟随大比拼!Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务
...面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减,表现最佳的o1-preview模型在三轮对话的准确率从87
2024-11-26 09:51:00
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【新智元导读】Playground Research推出了新一代文本到图像模型PGv3,具备240亿参数量,采用深度融合的大型语言模型
2024-10-08 09:48:00
开源大模型新的里程碑!Llama 3.1 模型准时发布
...KER科技7月24日消息,今日凌晨,Meta官方正式发布了Llama3.1模型。本次Llama3.1模型共有三个版本
2024-07-24 12:13:00
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越
2024-08-05 09:37:00
openai发布多语言大规模多任务语言理解
...言大规模多任务语言理解(MMMLU)数据集。背景随着语言模型日益强大,评估其在不同语言、认知和文化背景下的能力已成为当务之急。OpenAI决定推出MMMLU数据集,通过提供强
2024-09-24 22:07:00
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...东西8月21日消息,今天,微软一口气甩出3款超强轻量级模型!微软本次发布的轻量级模型系列名为Phi-3.5,适合在内存和算力受限的环境中运行
2024-08-22 09:49:00
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
就在刚刚,Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练
2024-04-20 11:03:00
谷歌史上最强大模型!Gemini 2.0正式发布
...今天凌晨,谷歌正式发布了为新智能体时代构建的下一代模型——Gemini 2.0。这是谷歌迄今为止功能最强的AI模型
2024-12-12 07:15:00
更多关于科技的资讯:
健康之旅,“媒”好同行!爱康集团烟威区域媒体开放日圆满结束
为构建与公众的沟通桥梁,让烟威人民更好地了解爱康的医疗品质及优质体检服务,9月25日下午爱康集团烟威区域媒体开放日活动于爱康莱山区分院成功举办
2025-10-01 20:51:00
人工智能不仅能分析人脸情绪,还能读取脑电波信号,为人定制香氛;恐龙变为AI数字虚拟形象,成为人们的“萌宠”——这不是科幻电影
2025-09-30 08:09:00
从线上学习到山水修行:简知文旅×简橙教育共同打造银发文旅的深度与温度
近日,长江三峡见证了一场别开生面的银发游学盛事。"三峡简橙号·年度盛典"游学项目在历时七天的精彩行程后圆满落下帷幕。该项目由简知科技旗下两大知名品牌"简知文旅"与"简橙教育"联合策划执行
2025-09-30 08:17:00
聊城智汇 链接全球丨锚定国际市场,力得汽车科技加速布局海外
齐鲁晚报·齐鲁壹点 国晓宁 崔宇晴走进山东力得汽车科技股份有限公司的生产车间,机器轰鸣声不绝于耳,一条条先进的生产线正有序运转
2025-09-30 09:20:00
国庆黄金周变身“家电焕新周”,三联家电门店人气爆棚
随着国庆与中秋双节同庆的长假来临,消费市场迎来了一年之中最炙手可热的“黄金销售季”。与以往不同的是,这个假期在旅游、探亲等传统主题之外
2025-09-30 09:22:00
壹点观察 | 蔚来城商业广场十一开业,德州商业格局再迎新变化
在商业竞争日益激烈的今天,一座全新的商业综合体——蔚来城商业广场,即将于十一正式开门迎客。它的到来,为德州商业市场增添了新的变化
2025-09-30 09:24:00
鲁网9月29日讯(记者 杨勇)秋分时节,聊城市莘县升鑫金属制品有限公司的生产车间内,员工工作紧张有序,各种机器设备高效运转
2025-09-30 10:04:00
Aritco与Dezeen联合举办设计论坛 共探\
苏州2024年9月16日 -- 近日,瑞典家用电梯品牌Aritco瑞特科与全球知名设计媒体Dezeen设志在苏州联合举办了一场主题为"摒弃风格
2025-09-30 10:18:00
小微企业在传统银行承兑汇票(简称“银承”)业务办理中常常面临诸多难题。企业需要多次往返银行网点,提交大量纸质材料,流程烦琐
2025-09-30 10:45:00
中国数据研究中心:中之杰荣膺月饼行业智造先锋奖榜首
9月28日,中国数据研究中心正式发布《2025中国月饼行业白皮书》及“2025中国月饼行业智造先锋奖”十强品牌榜单,吉林中之杰食品科技发展有限公司凭借其位于长春的智能新厂
2025-09-30 11:15:00
鲁网9月30日讯近日,省科技厅公布了2025年度科技型中小企业创新能力提升工程(先投后股类)项目名单,全市共4家企业入选
2025-09-30 11:16:00
浪潮海晏荣获2025年“数据要素×”大赛山东分赛决赛三等奖
近日,由国家数据局、山东省人民政府联合指导,山东省大数据局等21家单位联合主办的2025年“数据要素×”大赛山东分赛决赛获奖名单正式公布
2025-09-30 11:21:00
据人民日报报道,近期国家网信办指导多地网信部门,对微博、快手、小红书、今日头条等多家平台进行约谈,责令限期整改热搜热榜存在的问题
2025-09-30 12:33:00
朱琳:品牌要让Z世代体验“设计师”般的快感
齐鲁晚报·齐鲁壹点 记者 牟静萍 实习生 葛同同 当下,Z世代正在以其独特的消费观念、多元的兴趣取向和对精神体验的重视
2025-09-30 12:46:00
大皖新闻讯 算力作为数字经济时代的核心生产力,已成为城市竞争的关键赛道。“十四五”期间,芜湖紧抓“东数西算”国家战略机遇
2025-09-30 13:57:00