• 我的订阅
  • 科技

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

类别:科技 发布时间:2024-08-10 09:45:00 来源:量子位

最强数学大模型,现在易主!

阿里千问大模型团队发布的Qwen2-Math,不仅超越了Llama 3.1-405B,也战胜了GPT-4o、Claude 3.5等一系列闭源模型。

而且还会解决竞赛级试题,在GPT-4只能做对一道的AIME 24中,Qwen2-Math答对的题目数量达到了两位数。

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

Qwen2-Math一共有三个参数量的版本——72B,7B和1.5B。

最强的72B版本,在MATH数据集上比GPT-4o多得了7分,按比例算高出了9.6%。

7B版本也用不到十分之一的参数量,超过了72B的开源数学模型NuminaMath。

而且这个NuminaMath来头不小,它的7B版本在全球首届AIMO中获奖,奖项由数学大牛陶哲轩颁发。

阿里高级算法专家林俊旸激动地宣布,千问团队把Qwen2模型变成了一个数学高手。

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

fast.ai创始人Jeremy Howard看了直呼amazing。

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

网友更是惊叹,原来这才是真正的“草莓”,这是开源的胜利,也是所有人的胜利。

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

超越GPT4o,会做竞赛级试题

如前文所说,Qwen2-Math共有72B、7B和1.5B三个参数规模,分别由对应规模的Qwen2基础模型改造而成。

在基础模型之上,团队使用精心设计的数学专用语料库进行了预训练,训练数据包含大规模高质量的数学网络文本、书籍、代码、考试题目,以及由Qwen2模型合成的数学预训练数据。

结果,在GSM8K、MATH等经典数学测试集上,Qwen2-Math-72B的数学能力都超过了405B的Llama-3.1。

这些数据集,涉及到问题涵盖了代数、几何、计数与概率、数论等多种类型。

除了这些英文的数据集,Qwen2-Math还专门挑战了中文数据集CMATH,还有高考试题。

在中文数据集上,1.5B版本的成绩就超过了70B的Llama 3.1,而且三个版本相当于同规模的Qwen2基础模型,成绩都有明显提升。

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

在Qwen2-Math的基础之上,千问团队还微调出了Instruct版本。

具体来说,团队基于Qwen2-Math-72B训练一个数学专用的奖励模型,将奖励信号与正误判断信号结合作为学习标签,再通过拒绝采样构建监督微调(SFT)数据,最后在SFT模型基础上使用GRPO方法优化。

在MATH数据集上的零样本测试显示,1.5B的Instruct就能取得70%的准确率,比70B的Llama 3.1还高。

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

此外,研究团队还引入了难度更大的OlympiadBench、CollegeMath和英译版高考试题等更困难的测试集。

作者让Qwen2-Math采用了贪心(greedy)、RM@8和Maj@8三种策略,结果无论是哪一种,Qwen2-Math的成绩全都超过了同规模的Llama 3.1。

中文数据集方面,Qwen2-Math还挑战了今年最新的中高考试题,与Llama 3.1相比优势十分明显。

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

值得一提的是,为了减少测试成绩当中的“水分”,千问团队专门从训练数据集中去除了所有和测试集重叠的部分。

而且除了精确匹配,还运用了更严格的13-gram去重策略,只要最长公共序列的比率应大于0.6就会被去除。

后训练的过程也是如此,涉及的数据集,甚至测试成绩中没展示的Aqua、SAT Math,全都被从数据当中剔除。

另外,Qwen2-Math-Instruct已经具备了解决一些简单的竞赛级试题的能力。

比如在AIME 24的30道题当中,Qwen2-Math-72B-Instruct用rm@256策略能够做对11道。

像GPT-4 Turbo、Claude 3 Opus和Gemini 1.5 PRo这些先进模型都只能做对一两道。

而且最小的1.5B版本也能在rm@256的条件下做对五道题,已经超过了这三家模型。

另外,Gemini 1.5 Pro有一个专门针对数学任务的版本,但也只能做对七八道题目,Qwen2-Math-72B-Instruct是第一个做对的题目数量达到两位数的模型。

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

在官方文档中,千问团队也展示了一些示例,比如奥赛级数学测试集Math Odyssey当中有这样一道题目。

这道题目涉及到组合数学和图论,具体又包括了完全图、二部图等概念。

此外还需要理解如何将这些概念应用于特定性质结构的构建,需要较强的抽象思维能力和对图论结构的深刻理解。

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

Qwen2-Math的解决方案是这样的,从中可以看出确实是运用到了图论方法。

最终,Qwen2-Math正确地回答了这道题目。

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

△中文为机翻,仅供参考

不过,目前发布的Qwen2-Math主要针对英文场景,中英双语版本将会在之后推出。

另外,根据Qwen2-Math的许可协议,该模型对大部分用户来说可以免费商用,但对于72B版本,如果每月活跃用户数超过1亿,就需要向千问团队申请许可了。

最强数学大模型易主!阿里千问新模型成绩超GPT-4o

项目主页:https://qwenlm.github.io/zh/blog/qwen2-math/参考链接:https://x.com/JustinLin610/status/1821554112192012291

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-10 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

9.11比9.9大?多个大模型翻车!业内人士:就是偏科,文科强理科弱
....9哪个大”的问题一一测试了ChatGPT以及目前国内的主流大模型,包括阿里、百度等5家大厂模型,月之暗面等6家AI独角兽的模型
2024-07-17 20:56:00
通义千问再放大招:720亿大模型开源,全尺寸赶上LLaMA-2,还有移动端可用的18亿模型
...包括编程、AI阅读、音视频转录、AI角色生成等八大产品模型。当时,阿里云就已经预告,接下来还要再发更大规模的开源模型
2023-12-01 21:07:00
AI大模型也高考?成绩单出来了,星火综合第一
...湘晨报、量子位等多家权威媒体对近10款国产人工智能大模型进行了高考作文、数学、物理三个科目的评测,并公布了成绩。我们来一起回顾一下: 首先进行的是高考作文的评测。在搜狐科技
2024-06-12 09:29:00
首个AI高考全卷评测结果发布:数学全都不及格
...布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分
2024-06-20 11:10:00
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态大模型能够处理和理
2024-09-20 13:35:00
哪里不会扫哪里!全球最强数学大模型在线玩,阿里多模态模型加持
现在,最强数学大模型,人人都可上手玩了!一觉醒来,阿里千问大模型团队发布了Qwen2-Math的Demo,抱抱脸在线可玩。惊喜的是,如果嫌输入数学公式比较麻烦,可以把想问的题截图
2024-08-21 09:42:00
阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权
出品 | 搜狐科技作者 | 梁昌均编辑 | 杨锦一口气开源8款模型,阿里通义又上新!4月29日一大早,阿里开源发布Qwen3
2025-04-29 16:17:00
李开复AI公司首发大模型,阿里云领投 | 36氪独家
...复成立的AI公司“零一万物”发布了首款开源中英双语大模型“Yi”。与此同时,36氪获悉,零一万物已完成新一轮融资,由阿里云领投
2023-11-06 12:13:00
2024阿里巴巴全球数学竞赛开考 563支AI队伍与人类挑战同一份考卷
...院所与企业的563支队伍使用AI作答。他们各显神通,使用模型调优、AI Agent、提示词工程等多种方式,推动AI构建更强大的数学能力
2024-04-15 14:08:00
更多关于科技的资讯:
工信部发布首批再制造机电产品典型应用案例我省入选数量全国第一河北日报讯(记者米彦泽)近日,工信部公布了首批再制造机电产品典型应用案例
2026-01-14 07:59:00
出海抢订单实现“开门红”杭州日报讯 在日前举行的2026年美国消费电子展(CES)上,来自嘉兴海宁的莲偶科技(海宁)有限公司表现抢眼
2026-01-14 06:51:00
每日商报讯 喜讯传来,余杭区中泰中学在2025世界机器人大赛总决赛中再创辉煌!经过激烈角逐,学校学子勇夺一项冠军、一项二等奖的优异成绩
2026-01-14 07:21:00
央媒看太原1月12日,央视“中国三农报道”栏目,以《年夜饭主打本地风味 预订火爆》为题,报道了太原年夜饭市场预订情况。报道称
2026-01-14 07:47:00
中国网1月14日讯国家安全部微信公众号14日刊文称,不少用户的手机上都曾收到“XX想给你隔空投送一张照片”的请求提示,“隔空投送”作为日常分享文件
2026-01-14 07:49:00
《2025加盟投资人群洞察报告》:“80后”仍是主力、“00后”快速崛起
中新经纬1月13日电 近日,中国特许加盟展&盟享加发布《2025加盟投资人群洞察报告》,(以下简称“报告”),中新经纬研究院受权发布
2026-01-13 20:35:00
“哭哭马”凭啥“马倒成功”
一只义乌产的马年玩偶,因嘴巴被缝反了方向,从“笑笑马”变成“哭哭马”,却意外成了全网追捧的“团宠”。从网友晒图引发讨论到疯狂玩梗
2026-01-13 17:04:00
苏州工业园区创新协同机制 激发共建研发机构新活力
为进一步推动研发机构面向产业发展需求,加强产学研对接和成果转移转化,让创新资源释放最大价值,近年来,苏州工业园区科技创新委员会持续探索完善科研机构共建协同机制
2026-01-13 17:20:00
大皖新闻讯 位于灵璧经济开发区的安徽儒特智能装备股份有限公司,依托自主研发的新能源电池固态电解质研磨设备,实现研磨精度从微米级向纳米级的关键技术突破
2026-01-13 17:27:00
中国消费者报报道(记者施本允)在浙江,走进任何一家中国电信营业厅,你都能看到一个温暖的角落——“爱心翼站”。这里不仅是歇脚喝水的便民点
2026-01-13 18:15:00
济南市数据要素流通服务平台入驻数商300余家,促成数据交易2.3亿元
鲁网1月13日讯(记者 李晓晨 实习生 刘璐)1月13日,济南市政府新闻办举行济南市“高质量完成‘十四五’规划”主题系列新闻发布会——数字济南建设专场
2026-01-13 18:18:00
粒子基光谱技术的工程路径与产业化前景
技术发展的轨迹常由两种力量塑造:其一是基于现有框架的持续性创新;其二则是源于基础原理突破的范式革命。后者往往能开启全新的技术轨道与应用疆域
2026-01-13 18:42:00
2026新年限定零食礼包推荐:旺旺大礼包以 “年度独家记忆” 定义春节礼赠
艾媒咨询《2024 年中国新春礼盒消费者行为洞察报告》显示,53.74% 消费者关注限定款文化属性,36.60% 看重内容独特性
2026-01-13 18:52:00
1月12日,从太钢获悉,太钢营销数智化升级项目IMP系统近日正式上线。此举将有效提升太钢营销运营效率与核心竞争力。据介绍
2026-01-13 19:51:00
在山西焦煤西山煤电西铭选煤厂的生产车间里,503精煤输送皮带承载着乌黑发亮的煤炭奔涌向前。皮带上方,一组看似简约的智能装置静静伫立
2026-01-13 19:51:00