• 我的订阅
  • 科技

国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单

类别:科技 发布时间:2024-11-22 09:54:00 来源:量子位

What???

一直低调行事的国内初创公司,旗下模型悄悄地跃升成国内第一、世界第五(仅排在o1系列和Claude 3.5之后)!

而且是前十名中的唯一一家国产公司。

(该榜上国产第二名是阿里开源的qwen2.5-72b-instruct,总榜第13)。

国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单

而且它登上的这个排行榜LiveBench,虽然现在还没有大模型竞技场(LMSYS Chatboat Arena)那么广为人知,但资格杠杠的——

图灵奖得主、Meta首席AI科学家杨立昆(Yann LeCun),联合纽约大学等在今年6月推出。

号称是“全球首个无法作弊的LLM基准测试”。

国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单

而这次冷不丁杀出来的黑马,其实比较熟悉国内大模型竞争格局的朋友们已经猜到了——

Step系列,背后是大模型六小虎之一的阶跃星辰。

指令跟随高分拿下全球第一

在LiveBench榜单上,阶跃星辰自研的万亿参数语言大模型Step-2-16k-202411在Global Average上拿下57.68分。

位列总榜第五、国产第一。

这个榜单之前出现频率不高,一方面是它确实很新,今年6月才刚推出;另一方面更加现实,那就是此前国产大模型并未在这个榜单塔尖取得傲人成绩。

这倒也不耽误榜单自身的实力——

LeCun和纽约大学等机构联手推出,专为大模型设计,目前包含6个类别的17个不同任务,每月更新新问题。

目标是确保榜单的问题不易受到污染 ,并且能够轻松、准确、公平地进行评估。

强调不易受到污染,是因为训练数据中包含了大量互联网内容,许多BenchMark很容易受到污染。

比如大家比较熟悉的数学测试集GSM8K,最近被证明有好些模型已经在它这儿过拟合了。这显然为评估模型能力带来了困扰。

除了要小心BenchMark被污染,确保评估方式公平、无偏见也很重要。

一般来说,大家都采用的是LLM担任评委或人类当裁判这两种方式。而LiveBench选择采用客观、基本事实判断来评估每个问题。

国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单

那么,当我们首次正视这个榜单的时候,我们还能从其中看出些什么?

先说成绩出色的Step-2。

IF Average一项,也就是指令跟随,它以最高分拿下全球第一。

这个项目的内容,是对《卫报》近期新文章进行改写、简化、总结或生成故事。

86.57这个成绩是真的非常高——榜单上其余众人(哪怕是OpenAI和Anthropic家的模型们)都在70-80分段,单项第二名的Meta-LLaMA-3.1-405b-instruct-turbo比它低了8分多。

这意味着,Step-2在语言生成上对细节有强控制力,理解能力max,然后更好地遵循人类指令。

更具体些可以理解为,当我们普通人输入语句颠倒、语意不清、表意模糊的非专业·真普通·prompt时,Step-2能结合上下文、具体情境推断使用者的具体需求,把一个模糊指令从“360p”进行“1080p”的理解,精准捕捉模糊指令背后的真实意图。

同时意味着内容创作能力也很强,比如让它创作一首古诗词,它在字数、格律、押韵、意境等方面,都能有精准的把控。

完全自主研发,MoE架构,万亿参数

在这次因为LiveBench又出来炸场一波之前,Step-2留给外界的最深刻印象,一定有一个是“国内首个由初创公司推出的万亿参数大模型”。

这有点像阶跃风格的具像化。在大模型六小虎中,阶跃的Step系列发布最晚,但出手毫不含糊。

今年3月,Step-2在全球开发者先锋大会开幕式预览亮相,一下子就从前作Step-1的千亿参数规模,拉升到了万亿参数规模。

吊足了胃口后,夏天的WAIC 2024期间,Step-2推出正式版。

国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单

模型采用了MoE架构。

一般而言,主流训练MoE模型有两种方式,不然就基于已有模型通过upcycle(向上复用)开始训练,不然就从头开始训练。

Upcycle方式所需算力相对更低、训练效率更高,但随随便便就到这种方式的天花板了。

比如基于拷贝复制得到的MoE模型,非常容易出现专家同质化严重的情况。

而选择从头开始训练MoE模型的话,能够探得更高的模型上限,但作为代价,训练难度也会增大。

但阶跃团队还是选择了后者,选择完全自主研发,选择从头开始训练。

国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单

过程中,通过部分专家共享参数、异构化专家设计等创新MoE架构设计,Step-2这个混合专家模型中的每个专家都得到了充分训练。

故而,Step-2总参数量达到万亿级别,每次训练或推理所激活的参数量也超过了市面上的大部分Dense模型。

此外,Step-2的训练过程中,阶跃的系统团队突破了6D并行、极致显存管理、完全自动化运维等关键技术,支撑起了整个模型的高效训练。

初亮相时,阶跃官方表示:

Step-2在数理逻辑、编程、中文知识、英文知识、指令跟随等方面体感全面逼近GPT-4。

结合这次LiveBench AI的成绩来看,团队对Step-2的定位、优势所在,把握得很清晰。

基座模型技术能力强,关键是要让人用起来才行。

官方消息是,Step-2已经接入了阶跃星辰的C端智能生活助手「跃问」,Web端和App都可以试一把。

如果是开发者,可以在阶跃星辰开放平台通过API接入使用Step-2。

语言模型和多模态模型全都要

开篇咱们提到,Step模型是一个系列,而Step-2是其语言模型的实力代表。

在这个系列中,除了语言模型,阶跃星辰的多模态模型也很有看头。

Step-1.5V是阶跃星辰的多模理解大模型,这款模型在三个方面优势突出:

一是感知能力。创新的图文混排训练方法,让Step-1.5V能理解复杂图表、流程图、准确感知物理空间复杂的几何位置,还能够处理高分辨率和极限长宽比的图像。

二是推理能力。根据图像内容进行各类高级推理任务,如解答数学题、编写代码、创作诗歌等。

三是视频理解能力。它不仅能够准确识别视频中的物体、人物和环境,还能够理解视频的整体氛围和人物情绪。

生成方面,阶跃手里有Step-1X图像生成大模型。

Step-1X采用DiT(Diffusion Models with transformer)架构,有600M、2B和8B三种不同的参数量,语意理解和图像创意实现两手抓。

具体而言,不管文本指令简单还是复杂,不管是画单一对象还是多层次、复杂内涵场景,它都能cover。

另外,该模型还支持针对中国元素的深度优化,使生成内容更适合国人的审美风格。

国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单

至于语言模型和多模态模型全都要,阶跃有自己的道理。

从成立一开始,阶跃星辰就明确了自身通往 AGI 的路线图:

单模态——多模态——多模态理解和生成的统一——世界模型——AGI。

换言之,阶跃的目标是开发出能够实现AGI的多模态大模型,并利用这些自主研发的大模型,创造新一代的AI应用。

为着这个目标,这一年多来,阶跃已经写下了属于自己的答案。

研发迭代速度很快,不到一年,无论Step-1到Step-2, 还是Step-1V到Step-1.5V,整体持续跑步前进中。

产品也有自己的想法,没有局限在ChatBot上。Step-2登顶国内的同一天,阶跃旗下的跃问还上了一个新功能:

简单设置,就能通过iPhone 16右下方侧边的“相机控制”按钮,一键调用“拍照问”功能。

没有iPhone 16的苹果用户,把系统升级到iOS18也能一步调用国产AI 了。

国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单

虽然已经在六小虎中占据一席,但近日看阶跃,仍然想以黑马来形容它。

论技术和实力,Step-2能突然杀到业界权威榜单国内第一,成为全球榜单前十唯一国产玩家。

大模型浪潮奔腾至今,已经有快两年的时间了。

两年里,投身其中的技术从业者们都在(看似分布其实共同)打造一个愿景,一个许多人都愿意参与并与之联系在一起的愿景。

有理由相信,阶跃Step系列,以及中国的大模型们,都会因为卓越的技术实力和不懈的创新追求,越来越熠熠生辉。

One More Thing

上个月,智源研究院推出辩论平台FlagEval Debate,旨在通过引入模型辩论这一竞争机制对大模型能力评估提供新的度量标尺。

和大模型竞技场玩法有点类似,就是俩模型一个正方一个反方,双盲测试,辩论完后用户投票。

然后才揭晓正反双方都是谁。

国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单

模型辩论,主要靠的是信息理解、知识整合、逻辑推理、语言生成和对话能力。

当然了,同时还能测复杂语境中信息的处理深度和迁移应变能力,反映其学习与推理的进步水平。

浅玩了一下,有些议题还蛮有意思。

比如“博物馆着火,只能救一个,救猫还是救《蒙娜丽莎》”这个议题。

俩模型吵到后面,“猫有九条命”的话都说出来了,笑死。

国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单

最后反复投了几次,Step-2大胜o1。

看来它辩论能力也很强呀……

国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单

榜单官网:https://livebench.ai/#/blog

跃问链接:https://yuewen.cn

FlagEval Debate官网:https://flageval.baai.org/#/debate

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-22 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

全球首个多模态地理科学大模型“坤元”发布:可据指令生成专业地理图表
...“坤元”通过深度学习320亿词元及4万余条高质量地理学指令,构建了深厚的地理学语言基础。与通用语言大模型相比,它在地理学专业术语、领域知识及语言模式上的熟悉度显著提升,使得在
2024-09-19 19:53:00
刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的
...文本作为参照保证回复内容的高质量,并根据用户的语音指令变化做出相应的声音变化,在保证智商的情况下仍然具有端到端建模 Speech2Speech 的能力
2024-10-26 09:49:00
提质降价,国产大模型加速奔跑
...满足不同维度的要求:一是基座模型质量,要有一个可被指令增强的基础模型;二是准备相关场景化数据,关注数据与实际场景的一致性和配适性;三是在训练过程中找到最优的调试参数。李景秋说
2025-02-05 03:48:00
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...了比 Meta 微调的 Llama-3.2-11B-Vision-Instruct 更强的对齐性与指令跟随性。 为进一步促进社区的多模态对齐研究
2024-10-18 09:47:00
昆仑万维发布国产版ChatGPT“天工” 今日启动邀请测试
...使得「天工」在复杂任务和场景中能够快速且准确地响应指令,输出高质量回答。这也是“天工”让用户感受到其足够“聪明”、“通人性”的关键原因之一。开源社区科学家助力 打造更懂中文的
2023-04-17 15:42:00
百度与优必选合作,人形机器人“大脑”有了AI大模型
...帮我叠一下你手里这件衣服吗?”“当然可以”。在语音指令下,Walker S人行机器人开始在桌子上进行柔软物体操作(叠衣服),速度虽然不算很快,但是每个动作都有条不紊。根据优必
2024-04-02 11:23:00
阿里云发布通义千问2.5,性能赶超GPT-4 Turbo
...前的通义千问2.1版,通义千问2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%,中文能力更是持续领先业界
2024-05-09 12:00:00
...元供大模型自监督学习,并制作了4万余条高质量地理学指令进行模型微调。相比通用语言大模型,“坤元”更熟悉地理学的语言模式、专业术语和领域知识,在地理学基准测试集上的准确性提升了
2024-09-19 15:08:00
智谱AI新一代基座大模型GLM-4在司南评测中跻身前列,位居国内第一
...LM-4 All Tools 实现自主根据用户意图,自动理解、规划复杂指令,自由调用网页浏览器、Code Interpreter代码解释器和多模态文生图大模型以完成复杂任务
2024-02-04 14:00:00
更多关于科技的资讯:
产品线介绍佛山创瑞智能装备有限公司提供的自动物流输送线产品系列丰富,包括面板输送线、倍速链生产线以及多层输送线,旨在满足不同行业
2025-04-25 20:23:00
自动翻板机:佛山创瑞智能装备有限公司的明星产品
自动翻板机技术亮点佛山创瑞智能装备有限公司生产的自动翻板机,以其先进的技术和稳定的性能,在市场中脱颖而出。该设备采用PLC控制系统
2025-04-25 20:57:00
锦江荟活动组织者积分计划上线!开展商务活动享多重礼遇
近日,锦江酒店锦江荟APP重磅推出积分计划,为会议/活动策划者、企业预订者等专业人士打造专属福利体系,以创新积分机制赋能高效商务活动
2025-04-25 22:53:00
2025推荐网站保护的Web 应用防火墙 -- 雷池WAF
介绍SafeLine,中文名"雷池",是一款简单好用,效果突出的,可以保护Web服务不受黑客攻击。雷池通过过滤和监控Web应用与互联网之间的HTTP流量来保护Web服务
2025-04-25 23:33:00
汤臣倍健一季度双线出击:升级基础营养素、发力强功能产品
4月25日晚间,汤臣倍健(300146.SZ)发布2025年一季度报告。报告显示,2025年一季度汤臣倍健实现营业收入17
2025-04-25 23:43:00
网易游戏遭遇离职潮:又一位总裁级大佬辞职 已加入公司12年
快科技4月25日消息,网易游戏全球投资与合作部总裁Simon Zhu(朱原)今日在领英上发布告别信,宣布辞职。朱原在领英上提到
2025-04-25 19:33:00
众点关注 | 京东外卖高调入局 外卖江湖之争愈演愈烈 到底有何差异?记者实测
大众网记者 赵奕宁 东营报道随着京东外卖高调入局,外卖江湖之争愈演愈烈。长期以来,美团和饿了么牢牢占据中国外卖市场的主导地位
2025-04-25 19:38:00
京东大时尚携手品牌共拓运动消费新趋势 易跑、北面等获消费者挚爱奖
4月22日,2025京东大时尚合作伙伴大会在京举行,并为运动鞋服、户外装备、体育健身品类的品牌合作伙伴,颁发了2025年度最佳合作品牌
2025-04-25 19:51:00
海蓝之谜、迪奥美妆等获京东大时尚最佳合作伙伴奖 打爆款、推新品引领消费新趋势
4月22日,2025京东大时尚合作伙伴大会在京举行。大会现场向海蓝之谜、迪奥美妆、兰蔻、SK-II、珀莱雅等20余家知名美妆品牌合作伙伴
2025-04-25 19:52:00
2025年初,东南亚冰淇淋领军品牌艾雪(Aice)获得包括蒙牛集团在内的大股东增资,吸引市场投资者高度关注。市场分析认为
2025-04-25 19:52:00
波司登再度入选《标普全球可持续发展年鉴(中国版)》 彰显ESG领导力
近日,全球权威评级机构标普全球(S&P Global)正式发布《可持续发展年鉴(中国版)2025》(Sustainability Yearbook 2025)
2025-04-25 19:52:00
金沙中国伦敦人名汇亮相第十三届澳门国际旅游(产业)博览会
4月25至27日,金沙中国有限公司参与在澳门威尼斯人®金光会展举行的第十三届澳门国际旅游(产业)博览会(简称“旅博会”)
2025-04-25 19:55:00
李小璐女装成了!线上销售额暴涨1000% 月销售额近千万
快科技4月25日消息,近日,李小璐在其个人社交账号连发多条作品,为其女装品牌做模特宣传。第三方数据平台显示,李小璐个人女装品牌LuLusMiracle近30天销售额为750万—1000万元
2025-04-25 20:03:00
淘宝对游戏区大整顿!禁卖破解版、假入库、盗版游戏
快科技4月25日消息,近日淘宝发布关于新增《淘宝网游戏软件平台行业管理规范》的公示通知,针对商品发布要求、行为要求以及保证金要求等做出了规范
2025-04-25 20:03:00
抖音生活服务2025年“心动榜”发布 淄博、哈尔滨等18城首次上榜
快科技4月25日消息,抖音生活服务2025年“心动榜”在北京正式发布,40座城市上榜,同比增长18座。今年的“心动榜”新增哈尔滨
2025-04-25 20:03:00