• 我的订阅
  • 科技

杨仝团队发布FairyR1模型:5%参数量数学和代码能力超越满血DeepSeek

类别:科技 发布时间:2025-05-28 14:17:00 来源:数字化报

北京大学杨仝教授团队近期发布了其在高效大型语言模型研究方向的一项新成果——FairyR1-32B模型。该模型基于DeepSeek-R1-Distill-Qwen-32B基座,通过结合微调与模型合并技术构建。研究探索了在参数量大幅减少的情况下,模型在特定任务上实现与更大模型相当甚至更优性能的可能性。该研究得到了国家自然科学基金委项目(624B2005,62372009)的资助。FairyR1-32B模型已在huggingface开源:https://huggingface.co/PKU-DS-LAB/FairyR1-32B。

FairyR1-32B模型是在团队前期TinyR1工作基础上进行的进一步探索,沿用了“分合蒸馏”的研究思路,提出了多种改进方法,包括自我合并、多教师交叉蒸馏、轻蒸馏等方法,并在数据处理进行了优化,模型精度有了显著提升。

本次工作重点改进了蒸馏数据的构建流程,对来源于AI-MO/NuminaMath-1.5(数学)和open-thoughts/OpenThoughts-114k(代码)等数据集的原始数据,通过多个“教师模型”生成答案,随后对问答数据进行精心筛选、结构调整与思维链优化,并进行多阶段筛选。筛选过程包括基于答案的正确性验证(针对数学数据),以及基于长度的筛选(数学数据保留2k-8ktokens范围,代码数据保留4k-8ktokens范围),最终构建了更具针对性的约6.6k条数学数据和约3.8k条代码数据用于训练。

在模型结构方面,研究团队尝试训练两个领域(数学和代码)的专业模型进行合并,旨在进一步优化流程和资源消耗。这两个专业模型在一致的训练参数下(例如相同的学习率和批次大小)独立训练约5个周期后,利用AcreeFusion工具进行了合并。在多个公开基准测试中,FairyR1展现出了在低参数量下的竞争力表现。以下为FairyR1与DeepSeek-R1-671B及DeepSeek-R1-Distill-Qwen-32B在部分基准上的得分对比:

杨仝团队发布FairyR1模型:5%参数量数学和代码能力超越满血DeepSeek

从测试结果可以看出,FairyR1-32B在AIME2025和LiveCodeBench基准上得分略高于DeepSeek-R1-671B,在AIME2024上表现接近。在GPQA-Diamond科学基准上,FairyR1的得分低于DeepSeek-R1-671B。这些结果表明,FairyR1在采用DeepSeek-R1-Distill-Qwen-32B基座并经过特定技术处理后,能够在约5%参数量的情况下,在数理和编程等领域实现与大型模型相当或略优的性能水平,但在科学等其他领域可能存在差距。这项工作探索了通过优化的数据处理和模型融合技术,在保证特定任务性能的前提下,大幅降低模型规模和潜在推理成本的可能性。

北京大学杨仝教授团队表示:“FairyR1-32B模型是我们探索高效大型语言模型技术路线的阶段性成果。通过对蒸馏和合并方法的改进,我们初步验证了在有限资源下实现高性能模型的可行性。”

团队成员:李旺、周俊廷、刘文睿、姚一伦、王融乐、杨仝

杨仝团队发布FairyR1模型:5%参数量数学和代码能力超越满血DeepSeek

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-05-28 17:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权
出品 | 搜狐科技作者 | 梁昌均编辑 | 杨锦一口气开源8款模型,阿里通义又上新!4月29日一大早,阿里开源发布Qwen3
2025-04-29 16:17:00
Llama版o1来了,来自上海AI Lab,强化学习代码已开源,
复刻OpenAI o1推理大模型,开源界传来最新进展:LLaMA版o1项目刚刚发布,来自上海AI Lab团队。简介中明确
2024-11-06 09:49:00
李开复AI公司首发大模型,阿里云领投 | 36氪独家
...复成立的AI公司“零一万物”发布了首款开源中英双语大模型“Yi”。与此同时,36氪获悉,零一万物已完成新一轮融资,由阿里云领投
2023-11-06 12:13:00
字节开源全栈AI编程基准,不小心曝光豆包代码大模型
豆包代码大模型,不小心给曝光了!在字节开源的代码大模型评估基准FullStack Bench里面,出现了此前字节未披露过的Doubao-Coder
2024-12-06 09:50:00
阿里最新开源推理模型发布:性能比肩DeepSeek-R1
阿里通义发布最新开源推理模型,称其性能比肩DeepSeek-R1。3月6日凌晨,阿里巴巴正式发布最新的开源推理模型通义千问QwQ-32B
2025-03-06 13:22:00
阿里推出全新推理模型:仅1/21参数媲美DeepSeek R1
...里Qwen团队正式发布他们最新的研究成果——QwQ-32B大语言模型。这是一款拥有320亿参数的模型,其性能可与具备6710亿参数(其中370亿被激活)的DeepSeek-R1媲美
2025-03-06 07:42:00
最强数学大模型易主!阿里千问新模型成绩超GPT-4o
最强数学大模型,现在易主!阿里千问大模型团队发布的Qwen2-Math,不仅超越了Llama 3.1-405B,也战胜了GPT-4o
2024-08-10 09:45:00
...太好的文科生业内人士如何看待这个多模态预训练大语言模型?记者采访了上海交通大学教授、自然语言处理专家赵海。“读图编程”表演令人惊艳赵海教授解释,模态对应的是人类感知类型,包括
2023-03-16 09:23:00
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态大模型能够处理和理
2024-09-20 13:35:00
更多关于科技的资讯:
科大讯飞亮相2025未来外贸大会,AI翻译成破局外贸新蓝海关键引擎
8月26日,2025未来外贸大会在广州白云国际会议中心顺利举行,大会主题为“本地账户链全球,共拓外贸新蓝海”。本次大会由中国B2B外贸金融平台XTransfer主办
2025-09-01 11:12:00
聚焦数博会丨丰浩建设科技:引领建筑行业数字化变革
2025中国国际大数据产业博览会吸引了全球目光,来自江苏常州的江苏丰浩建设科技有限公司作为建筑科技领域的创新先锋,携前沿技术与创新成果精彩亮相
2025-09-01 11:37:00
今年以来,广东南粤银行中山分行积极响应国家科技自立自强战略部署,深度融入区域科技创新生态建设,以科技金融为重要抓手,持续优化服务模式
2025-09-01 14:14:00
华为XMAGE“共见·安吉”:持续推动移动影像技术突破与美学共鸣
8月29日至31日,华为XMAGE“共见·安吉”影像主题活动在浙江安吉举办,华为研发专家与全球专业摄影师围绕移动影像技术发展与创作实践展开深度交流
2025-09-01 14:14:00
不止玫瑰与黄金 七夕\
消费日报网讯(记者马佳丽)今年七夕节,消费市场热度依旧,不仅各类商品成交量显著增长,更反映出人们在情感表达上的多元化与升级趋势
2025-09-01 15:18:00
第六代市场未开先火,铺火,支付更火
在义乌,一场激烈的 “战争” 正在悄然上演。义乌第六代市场核心项目全球数贸中心迎来招商热潮,自 6 月起分批启动的招投标阶段
2025-09-01 15:23:00
2025年以来,中国光大银行坚持以客户为中心,将数字技术深度融入业务创新与运营,聚焦“光大云缴费”、手机银行、“薪悦通”等平台
2025-09-01 15:27:00
ICML 2025收录作业帮成果:大模型能量基偏好模型领跑教育适配
日前,第42届国际机器学习大会(ICML 2025)在加拿大温哥华会议中心盛大举行,基于在前沿技术领域的多年探索与深耕
2025-09-01 15:33:00
榆树炸鸡腿与美团达成战略合作,携手赋能数字化升级
近日,知名中式炸鸡品牌榆树炸鸡腿与生活服务领域巨头美团正式签署战略合作协议。双方宣布将围绕物联网应用、大数据分析、企业规范化管理及外卖业务优化等核心领域展开深度融合
2025-09-01 15:33:00
老用户直呼上当!导购平台返利网被指“私设”百元提现门槛 官方回应:用于维护补贴的可持续性
消费日报网讯(记者 王鑫坤)近期,有许多消费者投诉称,在使用导购平台返利网APP的过程中发现平台“私设”了百元提现门槛
2025-09-01 15:49:00
灌云农商银行:“金心为你,爱在七夕”贵金属展销会落幕
为满足广大消费者对贵金属的投资、收藏与馈赠需求,值七夕佳节之际,一场盛大的“金心为你,爱在七夕”贵金属展销会于2025年8月29日在灌云农商银行城西支行二楼举办
2025-09-01 15:50:00
向内生长,方能远行:青岛女创会与文运心塾共修“大学之道”
大众网记者 石尚峰 青岛报道海风伴经典,智慧照初心。8月30日,青岛市女性创业者协会携手文运心塾,邀请文运先生携新书《开启生命成长之路——今用十讲》亲临授课
2025-09-01 17:05:00
人工智能背景下创业人才的需求变化和培养模式
文丨薛晶心 曾珍 天津外国语大学国际商学院人工智能作为催动科技革命和产业变革的核心驱动力量,正深刻改变着全球产业格局与就业市场
2025-09-01 17:20:00
聚焦城事,比拼“言值”!2025“鹭岛好评”网络评论大赛等你来“投”
厦门网讯 立时代之潮头,发思想之先声。今天,由厦门市委网信办主办、厦门网承办的2025“鹭岛好评”网络评论大赛正式启幕
2025-09-01 18:14:00
嘀嗒出行成立十一年用户增至3.95亿 车主1990万
今天是9月1日,嘀嗒出行正式迎来成立十一周年。当天,嘀嗒出行发表了主题为 “一份热爱,一路同行”致嘀嗒同路人的一封信;同时
2025-09-01 18:49:00