• 我的订阅
  • 科技

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

类别:科技 发布时间:2024-08-10 09:45:00 来源:量子位

最强数学大模型,现在易主!

阿里千问大模型团队发布的Qwen2-Math,不仅超越了Llama 3.1-405B,也战胜了GPT-4o、Claude 3.5等一系列闭源模型。

而且还会解决竞赛级试题,在GPT-4只能做对一道的AIME 24中,Qwen2-Math答对的题目数量达到了两位数。

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

Qwen2-Math一共有三个参数量的版本——72B,7B和1.5B。

最强的72B版本,在MATH数据集上比GPT-4o多得了7分,按比例算高出了9.6%。

7B版本也用不到十分之一的参数量,超过了72B的开源数学模型NuminaMath。

而且这个NuminaMath来头不小,它的7B版本在全球首届AIMO中获奖,奖项由数学大牛陶哲轩颁发。

阿里高级算法专家林俊旸激动地宣布,千问团队把Qwen2模型变成了一个数学高手。

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

fast.ai创始人Jeremy Howard看了直呼amazing。

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

网友更是惊叹,原来这才是真正的“草莓”,这是开源的胜利,也是所有人的胜利。

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

超越GPT4o,会做竞赛级试题

如前文所说,Qwen2-Math共有72B、7B和1.5B三个参数规模,分别由对应规模的Qwen2基础模型改造而成。

在基础模型之上,团队使用精心设计的数学专用语料库进行了预训练,训练数据包含大规模高质量的数学网络文本、书籍、代码、考试题目,以及由Qwen2模型合成的数学预训练数据。

结果,在GSM8K、MATH等经典数学测试集上,Qwen2-Math-72B的数学能力都超过了405B的Llama-3.1。

这些数据集,涉及到问题涵盖了代数、几何、计数与概率、数论等多种类型。

除了这些英文的数据集,Qwen2-Math还专门挑战了中文数据集CMATH,还有高考试题。

在中文数据集上,1.5B版本的成绩就超过了70B的Llama 3.1,而且三个版本相当于同规模的Qwen2基础模型,成绩都有明显提升。

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

在Qwen2-Math的基础之上,千问团队还微调出了Instruct版本。

具体来说,团队基于Qwen2-Math-72B训练一个数学专用的奖励模型,将奖励信号与正误判断信号结合作为学习标签,再通过拒绝采样构建监督微调(SFT)数据,最后在SFT模型基础上使用GRPO方法优化。

在MATH数据集上的零样本测试显示,1.5B的Instruct就能取得70%的准确率,比70B的Llama 3.1还高。

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

此外,研究团队还引入了难度更大的OlympiadBench、CollegeMath和英译版高考试题等更困难的测试集。

作者让Qwen2-Math采用了贪心(greedy)、RM@8和Maj@8三种策略,结果无论是哪一种,Qwen2-Math的成绩全都超过了同规模的Llama 3.1。

中文数据集方面,Qwen2-Math还挑战了今年最新的中高考试题,与Llama 3.1相比优势十分明显。

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

值得一提的是,为了减少测试成绩当中的“水分”,千问团队专门从训练数据集中去除了所有和测试集重叠的部分。

而且除了精确匹配,还运用了更严格的13-gram去重策略,只要最长公共序列的比率应大于0.6就会被去除。

后训练的过程也是如此,涉及的数据集,甚至测试成绩中没展示的Aqua、SAT Math,全都被从数据当中剔除。

另外,Qwen2-Math-Instruct已经具备了解决一些简单的竞赛级试题的能力。

比如在AIME 24的30道题当中,Qwen2-Math-72B-Instruct用rm@256策略能够做对11道。

像GPT-4 Turbo、Claude 3 Opus和Gemini 1.5 PRo这些先进模型都只能做对一两道。

而且最小的1.5B版本也能在rm@256的条件下做对五道题,已经超过了这三家模型。

另外,Gemini 1.5 Pro有一个专门针对数学任务的版本,但也只能做对七八道题目,Qwen2-Math-72B-Instruct是第一个做对的题目数量达到两位数的模型。

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

在官方文档中,千问团队也展示了一些示例,比如奥赛级数学测试集Math Odyssey当中有这样一道题目。

这道题目涉及到组合数学和图论,具体又包括了完全图、二部图等概念。

此外还需要理解如何将这些概念应用于特定性质结构的构建,需要较强的抽象思维能力和对图论结构的深刻理解。

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

Qwen2-Math的解决方案是这样的,从中可以看出确实是运用到了图论方法。

最终,Qwen2-Math正确地回答了这道题目。

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

△中文为机翻,仅供参考

不过,目前发布的Qwen2-Math主要针对英文场景,中英双语版本将会在之后推出。

另外,根据Qwen2-Math的许可协议,该模型对大部分用户来说可以免费商用,但对于72B版本,如果每月活跃用户数超过1亿,就需要向千问团队申请许可了。

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

项目主页:https://qwenlm.github.io/zh/blog/qwen2-math/参考链接:https://x.com/JustinLin610/status/1821554112192012291

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-10 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

9.11比9.9大?多个大模型翻车!业内人士:就是偏科,文科强理科弱
....9哪个大”的问题一一测试了ChatGPT以及目前国内的主流大模型,包括阿里、百度等5家大厂模型,月之暗面等6家AI独角兽的模型
2024-07-17 20:56:00
通义千问再放大招:720亿大模型开源,全尺寸赶上LLaMA-2,还有移动端可用的18亿模型
...包括编程、AI阅读、音视频转录、AI角色生成等八大产品模型。当时,阿里云就已经预告,接下来还要再发更大规模的开源模型
2023-12-01 21:07:00
AI大模型也高考?成绩单出来了,星火综合第一
...湘晨报、量子位等多家权威媒体对近10款国产人工智能大模型进行了高考作文、数学、物理三个科目的评测,并公布了成绩。我们来一起回顾一下: 首先进行的是高考作文的评测。在搜狐科技
2024-06-12 09:29:00
首个AI高考全卷评测结果发布:数学全都不及格
...布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分
2024-06-20 11:10:00
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态大模型能够处理和理
2024-09-20 13:35:00
哪里不会扫哪里!全球最强数学大模型在线玩,阿里多模态模型加持
现在,最强数学大模型,人人都可上手玩了!一觉醒来,阿里千问大模型团队发布了Qwen2-Math的Demo,抱抱脸在线可玩。惊喜的是,如果嫌输入数学公式比较麻烦,可以把想问的题截图
2024-08-21 09:42:00
阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权
出品 | 搜狐科技作者 | 梁昌均编辑 | 杨锦一口气开源8款模型,阿里通义又上新!4月29日一大早,阿里开源发布Qwen3
2025-04-29 16:17:00
李开复AI公司首发大模型,阿里云领投 | 36氪独家
...复成立的AI公司“零一万物”发布了首款开源中英双语大模型“Yi”。与此同时,36氪获悉,零一万物已完成新一轮融资,由阿里云领投
2023-11-06 12:13:00
2024阿里巴巴全球数学竞赛开考 563支AI队伍与人类挑战同一份考卷
...院所与企业的563支队伍使用AI作答。他们各显神通,使用模型调优、AI Agent、提示词工程等多种方式,推动AI构建更强大的数学能力
2024-04-15 14:08:00
更多关于科技的资讯:
工信部:春节9天刷出878.3万TB,5G流量超七成
中国网3月2日讯 据工信微报公众号消息,2026年春节,通信业网络运行平稳,国内移动数据流量保持较快增长,国际及港澳台漫游业务持续活跃
2026-03-02 12:25:00
涉未成年人新规3月1日正式实施!首创四类清单,划定红线
网络低俗信息、不当打造“网红儿童”、算法推送不良内容、诱导孩子打赏追星……当前,各类网络信息乱象及平台责任虚化等问题突出
2026-03-02 13:00:00
加快推动人工智能向现实生产力转化 厦门人工智能创新生态社区集聚效应初显
在厦门人工智能创新生态社区,具身智能机器人化身“售货员”上岗。厦门网讯(文/图 厦门日报记者 林露虹)空中成像技术领军企业在此落子
2026-03-02 08:28:00
浙江日报讯 (记者 何贤君 杜羽丰 共享联盟·义乌 吴峰宇) 北京时间2月26日上午11时(美国东部时间2月25日晚10时)
2026-03-02 08:56:00
鲁网3月2日讯近日,山东省工业和信息化厅公布首批省级“模力空间”入库培育项目名单,依托青岛市人工智能产业园申报的“崂山AI·模力空间”成功入选
2026-03-02 10:03:00
中国网3月2日讯(记者 谢露莹)“履职不是坐在办公室里想问题,而是要在产业一线发现真实问题,再把企业实践上升为行业共识
2026-03-02 10:19:00
迎接泰康30年,回馈广大客户。近期,泰康人寿在各大银行渠道推出全新家庭综合保障计划“泰惠赢——惠定未来计划”(简称“计划”)
2026-03-02 10:37:00
硬核科技实力出圈!中国移动精彩亮相MWC 2026
当巴塞罗那的春风捎来全球科技界的年度邀约,这一次,中国移动将交出怎样的创新答卷?2026年3月2日—3月5日,备受瞩目的世界移动通信大会(MWC)将在地中海之滨拉开帷幕
2026-03-02 10:42:00
一场“天作之合”的中德联姻2月26日,随着德国总理默茨到访杭州,许多在杭州和德国有关的项目,也“浮出”水面。据杭州市投资促进局的数据显示
2026-03-02 10:58:00
伴随着铿锵的鼓点和喜庆的舞龙表演,2月28日,全球最大的小商品集散中心——义乌国际商贸城如期开市,新气象扑面而来。开市仪式选址“焕新”——义乌全球数贸中心
2026-03-02 08:56:00
这个春节,你领千问红包了吗?杭州的消费市场不仅有浓浓的烟火气,更增添了满满的科技范。刚刚过去的春节假期,阿里巴巴千问App“春节请客计划”掀起的AI消费热潮
2026-03-02 06:54:00
乘势而起,打造生物医药创新高地
德适生物生产人员对KayoFlow自动细胞收获仪进行系统测试。记者 步恩撒 摄新兴产业,往往决定着一座城市未来的发展高度
2026-03-02 07:55:00
全国人工智能创新发展第一城,是杭州向世界递出的崭新名片。作为全省创新引擎的杭州城西科创大走廊,正以前所未有的力度抢占人工智能发展高地
2026-03-02 07:55:00
2月27日,山西转型综改示范区入区企业山西迈杰模具制造有限公司机械加工车间、冲压调试及焊装车间一片热火朝天的生产场景——机器的轰鸣声与员工们的专注身影
2026-03-01 20:19:00
小发票、大活力。市民参与“有奖发票”热情如潮水般奔涌攀升,消费市场焕发出勃勃生机。数据显示,活动启动半个月,已累计有303424张发票中奖
2026-03-01 20:20:00