• 我的订阅
  • 科技

阿里云通义开源最强过程奖励PRM模型 7B尺寸比GPT-4o更能发现推理错误

类别:科技 发布时间:2025-01-16 14:56:00 来源:浅语科技

快科技1月16日消息,今日,阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型。

据了解,在识别推理错误步骤能力上,Qwen2.5-Math-PRM以7B的小尺寸超越了GPT-4o。同时,通义团队还开源了首个步骤级的评估标准 ProcessBench,此项评估标准填补了大模型推理过程错误评估的空白。

阿里云通义开源最强过程奖励PRM模型 7B尺寸比GPT-4o更能发现推理错误

与此同时,为更好衡量模型识别数学推理中错误步骤的能力,通义团队还提出了全新的评估标准ProcessBench。该基准由3400个数学问题测试案例组成,其中还包含奥赛难度的题目,每个案例都有人类专家标注的逐步推理过程,可综合全面评估模型识别错误步骤能力。这一评估标准也已开源。

阿里云通义开源最强过程奖励PRM模型 7B尺寸比GPT-4o更能发现推理错误

此外,在ProcessBench上对错误步骤的识别能力的评估中,72B及7B尺寸的Qwen2.5-Math-PRM均显示出显著的优势,7B版本的PRM模型不但超越同尺寸开源PRM模型,甚至超越了闭源GPT-4o-0806。这证明了过程奖励模型(PRM)能够显著提高推理的可靠性,为未来开发推理过程监督技术开辟了新的途径。

【本文结束】如需转载请务必注明出处:快科技

责任编辑:秋白

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-01-16 17:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

阿里最新开源推理模型发布:性能比肩DeepSeek-R1
阿里通义发布最新开源推理模型,称其性能比肩DeepSeek-R1。3月6日凌晨,阿里巴巴正式发布最新的开源推理模型通义千问QwQ-32B
2025-03-06 13:22:00
通义千问再放大招:720亿大模型开源,全尺寸赶上LLaMA-2,还有移动端可用的18亿模型
时隔一个月,通义千问又放大招了!在一个月前的阿里云栖大会上,阿里正式发布通义千问2.0版本,在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上,都有较大提升。并且,阿
2023-12-01 21:07:00
本文转自:新华网12月1日,阿里云通义千问720亿参数模型Qwen-72B宣布开源。该模型基于3T tokens高质量数据训练
2023-12-01 13:33:00
阿里发布全球最强开源模型千问3 通义App第一时间已上线
快科技4月29日消息,阿里新一代通义千问开源模型Qwen3(简称千问3),现已在通义App与通义网页版(tongyi.com)全面上线
2025-04-29 11:35:00
...阿里巴巴又默默干了件大事:发布并开源全新的推理模型通义千问QwQ-32B。千问QwQ-32B是阿里探索推理模型的最新成果
2025-03-07 07:27:00
阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源
IT之家 9 月 2 日消息,阿里云通义千问今日宣布开源第二代视觉语言模型 Qwen2-VL,并推出 2B、7B 两个尺寸及其量化版本模型
2024-09-03 09:45:00
阿里云CTO周靖人:全面投入升级AI大基建
...每个AI和应用提供高性能、高效的算力服务。大会现场,通义大模型迎来了年度重磅发布,基础模型升级,性能媲美GPT-4o,发布最强开源模型Qwen2.5系列,同时上架语言、音频、
2024-09-19 15:53:00
阿里云重磅升级全栈AI体系,一文看懂云栖大会技术发布
...阿里云智能首席技术官周靖人发布了多项重磅技术更新。通义大模型7连发,在模型智能水平、Agent工具调用和Coding能力、深度推理、多模态等方面实现多项突破。2025云栖大会
2025-09-24 13:30:00
中国企业调用大模型日均超10万亿Tokens,阿里通义份额第一
...场大模型的日均总消耗量为 10.2 万亿 Tokens,其中,阿里通义占比17.7%位列第一,成为目前中国企业选择最多的大模型
2025-09-01 13:55:00
更多关于科技的资讯:
成都数字文创产业有了“定制化”保护服务
中国消费者报成都讯(记者刘铭)核心创意遭窃取、版权边界难界定、AIGC(人工智能生成内容)内容确权难……这些痛点困扰着数字文创企业的创新与发展
2026-01-16 11:01:00
全国首发垂直领域钢铁大模型有了升级版河钢发布钢铁行业全域大模型威赛博2.0河北日报讯(记者贡宪云)1月15日,河钢集团在唐山发布了钢铁行业全域大模型威赛博2
2026-01-16 08:15:00
高灯科技再登毕马威金融科技双50榜单!
近日,由雄安新区商务和投资促进局、雄安新区改革发展局等单位支持,毕马威主办的“毕马威金融科技企业双50榜单发布会”在雄安新区举行
2026-01-16 08:37:00
厦企布局AI玩具赛道 以人工智能技术赋能传统产业升级
麦明智能员工介绍AI数字梦工厂玩偶的功能。厦门网讯(文/厦门日报记者 林露虹 图/厦门日报记者 卢剑豪)毛茸茸的外表,圆滚滚的身子——刚走进软件园一期的厦门麦明智能科技有限公司
2026-01-16 08:51:00
临漳县“一品一播”云销“邺城优品”
图为临漳县“一品一播”企业样板直播间正在直播。河北新闻网讯(白增安、宋龙雨)后台订单实时跳动,打包区工作人员忙碌分拣……近日
2026-01-16 09:42:00
即时零售竞争升维,AI让“一句话点外卖”成为现实
于琛1月15日,阿里巴巴集团宣布将旗下人工智能(AI)应用程序“千问”接入其网络购物、旅游服务等业务生态,朝着打造“一站式AI平台”目标迈出了迄今为止的最大步伐
2026-01-16 10:38:00
郭海英中国出版协会、中国书刊发行业协会日前召开2026阅读X大会,会议发布的《2025年开卷图书零售市场趋势洞察报告》(简称《报告》)显示
2026-01-16 10:38:00
甘肃宏大在工业电子雷管核心工艺与智能化装配技术创新上迈出关键步伐
日前,工业和信息化部安全生产司对甘肃宏大下属平凉兴安“无药头快接式工业电子雷管工艺技术及智能兼容装配生产线研发项目”予以立项备案
2026-01-16 09:24:00
“帮我点23杯霸王茶姬的伯牙绝弦,其中12杯正常冰,8杯去冰,3杯热饮。”下午1点,杭州一互联网公司项目经理李薇打开千问App
2026-01-16 07:45:00
18年以后,齐金良仍会想起自己第一次看见那根采用日本技术和标准的预制管桩的情景。那时的他刚进入兆弟集团,也第一次接触到长十几米
2026-01-16 07:45:00
张锦涛 柳州工学院在现代建筑行业中,数字化技术的广泛应用正逐步改变传统的质量控制方式。通过将建筑工程的各个环节与数字化技术相结合
2026-01-16 07:06:00
中新经纬1月15日电 据“深圳市消费者委员会”微信号消息,近期,深圳市消委会开展儿童洞洞鞋比较试验,从线上、线下随机购买15款样品
2026-01-15 21:00:00
做完近视手术后,到底能不能看手机、电脑?划重点:可以看,但要讲“时机”和“方法”,盲目用眼可能会影响恢复哦!首先要明白
2026-01-15 22:13:00
依托自主研发的金融科技平台与线上化系统支撑,昆山农商银行成功推出“贵金属线上业务”及专属财富管理小程序,突破传统贵金属业务的地域与时间限制
2026-01-15 22:40:00
最高补贴1500元!家电、数码全都有,这份“省钱指南”请收好
大河网讯 近日,郑州航空港区正式启动2026年消费品以旧换新补贴活动,覆盖汽车、家电、数码智能产品三大领域,通过真金白银的补贴
2026-01-15 21:17:00