• 我的订阅
  • 科技

国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10

类别:科技 发布时间:2024-10-17 09:48:00 来源:量子位

国产大模型首次在公开榜单上超过GPT-4o!

就在刚刚,“大模型六小强”之一的零一万物正式对外发布新旗舰模型——Yi-Lightning(闪电)。

在大模型竞技场(Chatbot Arena)上,Yi-Lightning性能直冲总榜单并列第6,数学分榜并列第3,代码等其它分榜也名列前茅。

总成绩几乎与马斯克最新xAI大模型Grok-2-08-13持平,超越GPT-4o-2024-05-13、GPT-4o-mini-2024-07-18、Claude 3.5 Sonnet等顶流。

国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10

同时,国内清华系大模型公司智谱AI的GLM-4-Plus也杀进了总榜,位居第9位。

该榜单结果来自全球累积超千万次的人类用户盲测投票。

前段时间大模型竞技场还刚刚更新了规则,新榜单对AI回答的长度和风格等特征做了降权处理,分数更能反映模型真正解决问题的能力。

这次Yi-Lightning杀出重围,Lmsys团队特意发帖子,称这是竞技场上的大新闻:

国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10

大模型竞技场总榜第六、国产第一

细看大模型竞技场分类榜上的“赛况”,Yi-Lightning各项能力都排在前头。

在中文能力上,Yi-Lightning和GLM-4-Plus两个国产大模型都名列前位。

Yi-Lightning跃居并列第二,和o1-mini相差无几。

国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10

数学能力,Yi-Lightning和Gemini-1.5-Pro-002并列第3,仅次于o1-preview、o1-mini。

国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10

代码能力Yi-Lightning排名并列第4。

国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10

另外在Hard Prompts和Longer Query分榜,Yi-Lightning也都排在第4位。

国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10

国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10

最后同样值得关注的是,竞技场新功能风格控制过滤,确保分数反映模型真正解决问题的能力,而不是用漂亮的格式、增加回答长度。

在对长度和风格等特征做了降权处理后,所有模型分数均有下降,Yi-Lightning排名变化不大,整体还与GPT-4o、Grok-2同一梯队。

国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10

发布会上,零一万物创始人兼CEO李开复博士展示了Yi-Lightning在不同场景上的能力。

Yi-Lightning主打一个“推理速度更快,生成质量更好”。

相比上半年Yi-Large,Yi-Lightning首包速度提升1倍,推理速度也提升了4成。

像是翻译下面这种文学作品,Yi-Lightning不仅速度更快:

而且用词更精准,更具文学色彩:

那么Yi-Lightning是如何做到的?

好用还得极速

Yi-Lightning采用MoE混合专家模型架构。

底层技术上,Yi-Lightning在以下方面进行了提升。

国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10

首先是优化混合注意力机制(Hybrid Attention),只在模型的部分层次中将传统的全注意力(Full Attention)替换为滑动窗口注意力(Sliding Window Attention)。

由此以来,模型在保证处理长序列数据高性能表现的同时,还能大大降低推理成本。

Yi-Lightning还引入了跨层注意力(Cross-Layer Attention, CLA),允许模型在不同的层次之间共享键(Key)和值(Value)头,减少对存储需求。

这使得Yi-Lightning能在不同层次之间更有效地共享信息。

总的来说,KV cache缩小了2-4倍,同时将计算的复杂度从O(L²)降至O(L)。

其次,Yi-Lightning还采用了动态Top-P路由机制。

也就是说,Yi-Lightning可以根据任务的难度动态自动选择最合适的专家网络组合——

训练过程中会激活所有专家网络,使模型能学习到所有专家知识;而推理阶段,根据任务的难度,模型会选择性激活更匹配的专家网络。

另外,之前有一些传言称国内大模型“六小强”,有一些已经不做预训练了,李开复博士这次在发布会上直接“辟谣”:

零一万物绝不放弃预训练。

而且在模型预训练阶段,团队还积累了丰富的多阶段训练方法,将整个训练分为两块,一块做好以后就把它固定起来,然后在这个固定的模型上再做后段训练。

训练前期,更注重数据多样性,使得Yi-Lightning尽可能学习不同的知识;训练后期更重内容更丰富、知识性更强的数据。

同时团队还在不同阶段采用不同的batch size和LR schedule保证训练速度和稳定性。

李开复博士还表示,零一万物开发模型讲究“模基共建”,也就是共建模型和基础架构。

模型的训练、服务、推理设计,与底层的AIInfra架构和模型结构必须高度适配。

这样做的目的,不仅是让模型更好,而且让它在推理的时候能够更便宜。

再加上以上种种抬升“性价比”的技术加持,所以Yi-Lightning这次也是打到了白菜价——

0.99元每1M token

在中文等方面,Yi-Lightning比肩OpenAI的o1-mini,o1-mini的定价是每百万输入3美元,每百万输出12美元。

Yi-Lightning每百万token只需0.99RMB也是打到了骨折。

但李开复博士表示,即便这样也:不亏钱。

国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10

除了发布新模型,零一万物这次还首发了AI2.0数字人方案。

国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10

目前该数字人已接入Yi-Lightning,实时互动效果相比以往更强更自然了,belike:

国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10

https://www.toutiao.com/article/7426244808324284968/

最后谈起和国外头部大模型的差距,李开复博士表示这次Yi-Lightning的排名证明了国产大模型跟硅谷最顶尖模型的差距缩小到了五个月。

去跟追上美国最顶尖的模型,缩短这个时间差非常困难,要付出很大的努力和有独特的打法。在国内不少公司都在努力,“模基共建”则是零一万物自己摸索的独特路径。

参考链接:[1]https://x.com/lmarena_ai/status/1846245604890116457[2]https://x.com/01AI_Yi/status/1845776529185476613

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-17 12:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...海人工智能实验室联合魔搭社区推出中国大语言模型评测竞技场Compass Arena,首度集齐国内主流大模型全阵容,阿里通义千问、百度文心一言、腾讯混元、字节跳动豆包、书生·浦
2024-06-02 05:34:00
...,360 通过 CoE 技术架构,构建了大模型竞技平台——模型竞技场(bot.360.com),目前已经入驻360AI浏览器
2024-09-16 17:42:00
国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单
...而且它登上的这个排行榜LiveBench,虽然现在还没有大模型竞技场(LMSYS Chatboat Arena)那么广为人知
2024-11-22 09:54:00
逆水寒“ai竞技场”将于11月22日正式上线
...日,国风MMO手游逆水寒宣布将在其2.2.2新版本中上线“AI竞技场”功能,这一创新举措旨在通过游戏平台,汇聚广大玩家力量,对当下热门的AI大模型进行客观评估。据悉,逆水寒“
2024-11-21 10:46:00
openaigpt-4o登顶竞技场排行榜
...工WilliamFedus周一在社交平台X证实,近期在LMSYS聊天机器人竞技场(ChatbotArena)上表现优异的神秘聊天机器人“gpt-chatbot”
2024-05-15 13:37:00
to B要挣钱、to C要谨慎,李开复的大模型坚持
10月15日深夜,零一万物的Yi-Lighting大模型在LMSYS盲测竞技场的投票数超过1万次,拿到了这个国际权威测试榜单的入场券
2024-10-17 09:58:00
GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费
...刚,GPT-4o mini版迎来“高光时刻”——登顶了lmsys大模型竞技场,和满血版并列第一,还把Claude 3
2024-07-25 09:31:00
起猛了,GPT-4o被谷歌新模型击败,ChatGPT官号:大家深吸一口气
...2000人匿名投票,Gemini 1.5 Pro(0801)代表谷歌首次夺得lmsys竞技场第一。(中文任务也第一)而且这次还是双冠王
2024-08-05 09:36:00
奥特曼晒“草莓”引热议 神秘新模型现身竞技场 网友第一波实测来了
...新模型,真的藏不住了!先是有匿名聊天机器人现身lmsys竞技场,声称自己是GPT-4系列模型一部分,吊足了大家的胃口
2024-08-08 15:11:00
更多关于科技的资讯:
在声音经济崛起与全民素养提升的浪潮中,越来越多人渴望通过专业训练改善发音、解锁声音价值,梨花声音教育作为十方融海旗下核心品牌
2026-03-12 14:41:00
连接中国读者与世界文化 京东图书携精选书目亮相2026年伦敦书展
3月10日至12日,2026年伦敦书展于奥林匹亚展览中心举行,京东图书携手京东全球售精选优质书目亮相这一全球出版业春季盛会
2026-03-12 15:10:00
宁阳县第一人民医院脑电生物反馈治疗:为大脑做科学的“放松训练”
鲁网3月12日讯在快节奏的现代生活中,人们常常需要同时处理多项任务,承受各种压力,可能会出现注意力不集中、失眠等情况,严重者甚至引发头痛
2026-03-12 15:38:00
“找春天”为主题 CHIC2026(春季)在沪开幕
以“找春天”为主题的CHIC2026(春季)3月11日在沪启幕。作为中国服装产业的风向标与晴雨表,本届展会在117,200㎡展呈空间内
2026-03-12 15:53:00
上饶银行鄱阳支行以“赣质贷”助力科技小微企业跑出创新发展“加速度”
.wordContentCss_17732994133111{ font-family:宋体; font-size:14pt
2026-03-12 16:02:00
它石A1机器人获吉尼斯世界纪录称号,中国具身智能大模型“真落地”
2026年3月12日,随全球科技盛会AWE 2026在上海正式开幕,中国具身智能再度迎来里程碑时刻:由它石智航自主研发的A1机器人成功挑战吉尼斯世界纪录™称号
2026-03-12 16:13:00
连续6年全球家电行业第一!海尔智家再获32项iF设计奖
当下人们对理想居家生活的向往,早已绕不开“无人家务”的省心图景—— 不用为食材过期焦虑,不用为衣物洗护纠结,不用被琐碎家务消耗精力
2026-03-12 16:15:00
芯片初创公司通常面临一个两难困境:要做出产品就需要使用成熟的IP,但IP授权费用对早期团队而言是不小的负担。近日,Arm技术授权订阅模式中的Arm Flexible Access 方案进行了升级调整
2026-03-12 16:15:00
中国石油昆仑数智牵头制定的IEEE标准发布
在中国石油部分加油站,加油机器人已成为智慧加油的新亮点近日,由中国石油昆仑数智牵头制定的IEEE(加油机器人系统通用要求标准)通过IEEE SA标准委员会批准
2026-03-12 16:56:00
中新经纬3月12日电 据韩联社消息,韩国个人信息保护委员会(下称“委员会”)12日表示,对用户个人信息保护不到位造成45万名用户身份证号码泄露的乐天信用卡公司作出行政处罚
2026-03-12 16:56:00
快节奏的时代,每天被拖地、洗衣、做饭缠着晕头转向,什么时候才能跟家务说再见?在即将到来的AWE上,海尔带来全新成果,让无人家务更进一步
2026-03-12 16:14:00
戴着千问AI眼镜上两会,外媒记者:采访更高效了
今年全国两会现场,一款中国AI眼镜成为外媒记者的新宠。来自摩洛哥的中阿卫视记者毕诺,与多位国际同行纷纷戴上千问AI眼镜进行两会报道
2026-03-12 11:37:00
【奋进春天里】冲刺2200亿 2026年贵阳贵安将持续做大数智产业集群
编者按:一年春作首,奋进正当时。三月的黔中大地,生机盎然、干劲冲天,企业车间开足马力忙生产,项目工地塔吊林立赶进度。春日的沃土上
2026-03-12 11:52:00
鲁网3月12日讯3月12日,2026中国家电及消费电子博览会(AWE2026)在上海新国际博览中心正式开幕。继去年首发AI之眼技术
2026-03-12 12:08:00
3月11日,贵州省商务厅启动“2026年贵州食品、日用百货类商品线上促消费活动”,以“平台优惠+折扣立减”的促销方式,面向全国消费者发放总额1000万元的政府补贴
2026-03-12 12:22:00