• 我的订阅
  • 科技

国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单

类别:科技 发布时间:2024-11-22 09:54:00 来源:量子位

What???

一直低调行事的国内初创公司,旗下模型悄悄地跃升成国内第一、世界第五(仅排在o1系列和Claude 3.5之后)!

而且是前十名中的唯一一家国产公司。

(该榜上国产第二名是阿里开源的qwen2.5-72b-instruct,总榜第13)。

国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单

而且它登上的这个排行榜LiveBench,虽然现在还没有大模型竞技场(LMSYS Chatboat Arena)那么广为人知,但资格杠杠的——

图灵奖得主、Meta首席AI科学家杨立昆(Yann LeCun),联合纽约大学等在今年6月推出。

号称是“全球首个无法作弊的LLM基准测试”。

国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单

而这次冷不丁杀出来的黑马,其实比较熟悉国内大模型竞争格局的朋友们已经猜到了——

Step系列,背后是大模型六小虎之一的阶跃星辰。

指令跟随高分拿下全球第一

在LiveBench榜单上,阶跃星辰自研的万亿参数语言大模型Step-2-16k-202411在Global Average上拿下57.68分。

位列总榜第五、国产第一。

这个榜单之前出现频率不高,一方面是它确实很新,今年6月才刚推出;另一方面更加现实,那就是此前国产大模型并未在这个榜单塔尖取得傲人成绩。

这倒也不耽误榜单自身的实力——

LeCun和纽约大学等机构联手推出,专为大模型设计,目前包含6个类别的17个不同任务,每月更新新问题。

目标是确保榜单的问题不易受到污染 ,并且能够轻松、准确、公平地进行评估。

强调不易受到污染,是因为训练数据中包含了大量互联网内容,许多BenchMark很容易受到污染。

比如大家比较熟悉的数学测试集GSM8K,最近被证明有好些模型已经在它这儿过拟合了。这显然为评估模型能力带来了困扰。

除了要小心BenchMark被污染,确保评估方式公平、无偏见也很重要。

一般来说,大家都采用的是LLM担任评委或人类当裁判这两种方式。而LiveBench选择采用客观、基本事实判断来评估每个问题。

国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单

那么,当我们首次正视这个榜单的时候,我们还能从其中看出些什么?

先说成绩出色的Step-2。

IF Average一项,也就是指令跟随,它以最高分拿下全球第一。

这个项目的内容,是对《卫报》近期新文章进行改写、简化、总结或生成故事。

86.57这个成绩是真的非常高——榜单上其余众人(哪怕是OpenAI和Anthropic家的模型们)都在70-80分段,单项第二名的Meta-LLaMA-3.1-405b-instruct-turbo比它低了8分多。

这意味着,Step-2在语言生成上对细节有强控制力,理解能力max,然后更好地遵循人类指令。

更具体些可以理解为,当我们普通人输入语句颠倒、语意不清、表意模糊的非专业·真普通·prompt时,Step-2能结合上下文、具体情境推断使用者的具体需求,把一个模糊指令从“360p”进行“1080p”的理解,精准捕捉模糊指令背后的真实意图。

同时意味着内容创作能力也很强,比如让它创作一首古诗词,它在字数、格律、押韵、意境等方面,都能有精准的把控。

完全自主研发,MoE架构,万亿参数

在这次因为LiveBench又出来炸场一波之前,Step-2留给外界的最深刻印象,一定有一个是“国内首个由初创公司推出的万亿参数大模型”。

这有点像阶跃风格的具像化。在大模型六小虎中,阶跃的Step系列发布最晚,但出手毫不含糊。

今年3月,Step-2在全球开发者先锋大会开幕式预览亮相,一下子就从前作Step-1的千亿参数规模,拉升到了万亿参数规模。

吊足了胃口后,夏天的WAIC 2024期间,Step-2推出正式版。

国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单

模型采用了MoE架构。

一般而言,主流训练MoE模型有两种方式,不然就基于已有模型通过upcycle(向上复用)开始训练,不然就从头开始训练。

Upcycle方式所需算力相对更低、训练效率更高,但随随便便就到这种方式的天花板了。

比如基于拷贝复制得到的MoE模型,非常容易出现专家同质化严重的情况。

而选择从头开始训练MoE模型的话,能够探得更高的模型上限,但作为代价,训练难度也会增大。

但阶跃团队还是选择了后者,选择完全自主研发,选择从头开始训练。

国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单

过程中,通过部分专家共享参数、异构化专家设计等创新MoE架构设计,Step-2这个混合专家模型中的每个专家都得到了充分训练。

故而,Step-2总参数量达到万亿级别,每次训练或推理所激活的参数量也超过了市面上的大部分Dense模型。

此外,Step-2的训练过程中,阶跃的系统团队突破了6D并行、极致显存管理、完全自动化运维等关键技术,支撑起了整个模型的高效训练。

初亮相时,阶跃官方表示:

Step-2在数理逻辑、编程、中文知识、英文知识、指令跟随等方面体感全面逼近GPT-4。

结合这次LiveBench AI的成绩来看,团队对Step-2的定位、优势所在,把握得很清晰。

基座模型技术能力强,关键是要让人用起来才行。

官方消息是,Step-2已经接入了阶跃星辰的C端智能生活助手「跃问」,Web端和App都可以试一把。

如果是开发者,可以在阶跃星辰开放平台通过API接入使用Step-2。

语言模型和多模态模型全都要

开篇咱们提到,Step模型是一个系列,而Step-2是其语言模型的实力代表。

在这个系列中,除了语言模型,阶跃星辰的多模态模型也很有看头。

Step-1.5V是阶跃星辰的多模理解大模型,这款模型在三个方面优势突出:

一是感知能力。创新的图文混排训练方法,让Step-1.5V能理解复杂图表、流程图、准确感知物理空间复杂的几何位置,还能够处理高分辨率和极限长宽比的图像。

二是推理能力。根据图像内容进行各类高级推理任务,如解答数学题、编写代码、创作诗歌等。

三是视频理解能力。它不仅能够准确识别视频中的物体、人物和环境,还能够理解视频的整体氛围和人物情绪。

生成方面,阶跃手里有Step-1X图像生成大模型。

Step-1X采用DiT(Diffusion Models with transformer)架构,有600M、2B和8B三种不同的参数量,语意理解和图像创意实现两手抓。

具体而言,不管文本指令简单还是复杂,不管是画单一对象还是多层次、复杂内涵场景,它都能cover。

另外,该模型还支持针对中国元素的深度优化,使生成内容更适合国人的审美风格。

国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单

至于语言模型和多模态模型全都要,阶跃有自己的道理。

从成立一开始,阶跃星辰就明确了自身通往 AGI 的路线图:

单模态——多模态——多模态理解和生成的统一——世界模型——AGI。

换言之,阶跃的目标是开发出能够实现AGI的多模态大模型,并利用这些自主研发的大模型,创造新一代的AI应用。

为着这个目标,这一年多来,阶跃已经写下了属于自己的答案。

研发迭代速度很快,不到一年,无论Step-1到Step-2, 还是Step-1V到Step-1.5V,整体持续跑步前进中。

产品也有自己的想法,没有局限在ChatBot上。Step-2登顶国内的同一天,阶跃旗下的跃问还上了一个新功能:

简单设置,就能通过iPhone 16右下方侧边的“相机控制”按钮,一键调用“拍照问”功能。

没有iPhone 16的苹果用户,把系统升级到iOS18也能一步调用国产AI 了。

国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单

虽然已经在六小虎中占据一席,但近日看阶跃,仍然想以黑马来形容它。

论技术和实力,Step-2能突然杀到业界权威榜单国内第一,成为全球榜单前十唯一国产玩家。

大模型浪潮奔腾至今,已经有快两年的时间了。

两年里,投身其中的技术从业者们都在(看似分布其实共同)打造一个愿景,一个许多人都愿意参与并与之联系在一起的愿景。

有理由相信,阶跃Step系列,以及中国的大模型们,都会因为卓越的技术实力和不懈的创新追求,越来越熠熠生辉。

One More Thing

上个月,智源研究院推出辩论平台FlagEval Debate,旨在通过引入模型辩论这一竞争机制对大模型能力评估提供新的度量标尺。

和大模型竞技场玩法有点类似,就是俩模型一个正方一个反方,双盲测试,辩论完后用户投票。

然后才揭晓正反双方都是谁。

国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单

模型辩论,主要靠的是信息理解、知识整合、逻辑推理、语言生成和对话能力。

当然了,同时还能测复杂语境中信息的处理深度和迁移应变能力,反映其学习与推理的进步水平。

浅玩了一下,有些议题还蛮有意思。

比如“博物馆着火,只能救一个,救猫还是救《蒙娜丽莎》”这个议题。

俩模型吵到后面,“猫有九条命”的话都说出来了,笑死。

国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单

最后反复投了几次,Step-2大胜o1。

看来它辩论能力也很强呀……

国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单

榜单官网:https://livebench.ai/#/blog

跃问链接:https://yuewen.cn

FlagEval Debate官网:https://flageval.baai.org/#/debate

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-22 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

全球首个多模态地理科学大模型“坤元”发布:可据指令生成专业地理图表
...“坤元”通过深度学习320亿词元及4万余条高质量地理学指令,构建了深厚的地理学语言基础。与通用语言大模型相比,它在地理学专业术语、领域知识及语言模式上的熟悉度显著提升,使得在
2024-09-19 19:53:00
刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的
...文本作为参照保证回复内容的高质量,并根据用户的语音指令变化做出相应的声音变化,在保证智商的情况下仍然具有端到端建模 Speech2Speech 的能力
2024-10-26 09:49:00
中国企业调用大模型日均超10万亿Tokens,阿里通义份额第一
...占据主导性增⻓。近期,阿里通义接连开源全新的千问3指令微调模型、推理模型等基础大模型,以及AI编程模型Qwen3-Coder
2025-09-01 13:55:00
提质降价,国产大模型加速奔跑
...满足不同维度的要求:一是基座模型质量,要有一个可被指令增强的基础模型;二是准备相关场景化数据,关注数据与实际场景的一致性和配适性;三是在训练过程中找到最优的调试参数。李景秋说
2025-02-05 03:48:00
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...了比 Meta 微调的 Llama-3.2-11B-Vision-Instruct 更强的对齐性与指令跟随性。 为进一步促进社区的多模态对齐研究
2024-10-18 09:47:00
昆仑万维发布国产版ChatGPT“天工” 今日启动邀请测试
...使得「天工」在复杂任务和场景中能够快速且准确地响应指令,输出高质量回答。这也是“天工”让用户感受到其足够“聪明”、“通人性”的关键原因之一。开源社区科学家助力 打造更懂中文的
2023-04-17 15:42:00
百度与优必选合作,人形机器人“大脑”有了AI大模型
...帮我叠一下你手里这件衣服吗?”“当然可以”。在语音指令下,Walker S人行机器人开始在桌子上进行柔软物体操作(叠衣服),速度虽然不算很快,但是每个动作都有条不紊。根据优必
2024-04-02 11:23:00
阿里云发布通义千问2.5,性能赶超GPT-4 Turbo
...前的通义千问2.1版,通义千问2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%,中文能力更是持续领先业界
2024-05-09 12:00:00
国产算力新突破!科大讯飞攻克MoE高效训练难题,发布星火X1.5
...语音大模型,仅需一句录音即可复刻任意音色,并用一条指令创造任意风格的声音。刘庆峰总结道:“超拟人多模态交互,将是未来AI进入每个家庭的标配。”“更懂你的AI”,满足工作、生活
2025-11-06 18:50:00
更多关于科技的资讯:
大润发东营首店亮相东城万达广场
鲁网1月31日讯2026年1月30日,大润发东营首店正式落户东营东城万达广场。该店践行“线上线下融合”的新零售战略,线上平台“大润发优鲜”已率先运营
2026-01-31 13:04:00
元梦空间2026马上元梦嘉年华大会即将在蓉举办,开启元宇宙“虚实共生”新纪元
2026年2月3日,一场以“马上元梦·数字新生”为主题的元宇宙行业盛典——元梦空间2026马上元梦嘉年华大会,将在四川成都隆重举行
2026-01-31 08:57:00
零基础学烘焙,2026年1月郑州靠谱的蛋糕培训机构有哪些?
想在郑州学做蛋糕,却不知道选哪家?是零基础想扎实学技能,还是打算创业需要全流程支持?随着烘焙赛道越来越火,郑州的蛋糕培训机构也层出不穷
2026-01-31 08:59:00
定制钻戒哪个好?2026年高性价比国产培育钻品牌深度推荐指南
在当代珠宝消费语境中,“定制钻戒”早已不再只是婚礼场景的专属符号,而逐渐演变为一种承载情感、表达个性与彰显审美的生活方式
2026-01-31 08:59:00
定制钻戒哪个好?2026培育钻戒选购终极攻略:这些高性价比品牌别错过!
在“悦己消费”与“情感表达”日益成为主流的今天,钻戒早已超越传统婚庆符号的单一身份,演变为一种融合科技、美学与个人叙事的现代生活方式
2026-01-31 09:01:00
简单解压易分享 我市涌现一批线下拼豆店
记者体验拼豆。拼豆店里,小朋友认真地将一粒粒塑料豆摆到豆板上。 厦门网讯 (文/图 厦门日报记者 柯笛)马年将至,小马造型和新年主题的拼豆图纸在网上走红
2026-01-31 09:16:00
东南网1月31日讯(福建日报记者 张文奎 通讯员 林文昊) 近日,记者从福州新区集团获悉,该集团投资企业恒美光电迎来重大技术突破
2026-01-31 10:34:00
行业无解的“-57密码”,他用国产元件成功“破解”
日前,一汽大众长春整车制造部总装二车间车身线的LJU控制器在运行过程中突然集中批量报出各种故障代码,其中的变频过流“-57”故障占比达到60%
2026-01-30 23:24:00
当国产航母劈波斩浪,北斗系统指引八方,医疗核心系统的自主可控之路同样刻不容缓。因为,看病靠医生,也靠信息保障,“健康钥匙”掌握在自己手里
2026-01-31 06:41:00
1月16日,太原盒马鲜生茂业天地店在亲贤长风商圈开业。数据显示,盒马鲜生太原首店前三日客流达到13万,太原茂业天地客流量同比增长65%
2026-01-31 07:15:00
摘要:在数字经济背景下,营销数字化转型已成为企业提升市场竞争力的重要战略选择。通过引入数据技术、数字平台和智能工具,企业营销活动的运行逻辑正在发生深刻变化
2026-01-31 05:24:00
摘要:随着企业不动产(CRE)在企业资产结构和战略体系中的重要性不断提升,其管理目标已由单一的成本控制逐步转向价值创造与客户导向
2026-01-31 05:24:00
新春福利来袭!上纵览领顺丰福利券,燕赵家乡年味寄回家
新春将至年味漫卷街巷牵挂亦随团圆脚步愈发浓烈纵览新闻客户端携手顺丰速运重磅打造“年味传情,顺丰到家”新春寄递专属福利以实在优惠为每份心意添力即日起至3月3日打开纵览新闻客户端点击
2026-01-30 21:20:00
深耕快消品设计领域,北京博创设计以国际水准铸就品牌视觉力量
在国内高端品牌设计领域,北京博创设计公司(Bofly Design)凭借近二十年的深耕积淀,以专业的全链路服务能力、众多国际奖项背书及标杆级客户案例
2026-01-30 22:14:00
今天,我们需要一瓶什么样的酒?
多彩贵州网讯 作为一个普通消费者,走在超市琳琅满目的酒水区,或是滑动手机屏幕浏览五花八门的电商页面时,我们常常会停下来思考
2026-01-30 20:05:00