• 我的订阅
  • 科技

阿里云通义开源最强过程奖励PRM模型 7B尺寸比GPT-4o更能发现推理错误

类别:科技 发布时间:2025-01-16 14:56:00 来源:浅语科技

快科技1月16日消息,今日,阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型。

据了解,在识别推理错误步骤能力上,Qwen2.5-Math-PRM以7B的小尺寸超越了GPT-4o。同时,通义团队还开源了首个步骤级的评估标准 ProcessBench,此项评估标准填补了大模型推理过程错误评估的空白。

阿里云通义开源最强过程奖励PRM模型 7B尺寸比GPT-4o更能发现推理错误

与此同时,为更好衡量模型识别数学推理中错误步骤的能力,通义团队还提出了全新的评估标准ProcessBench。该基准由3400个数学问题测试案例组成,其中还包含奥赛难度的题目,每个案例都有人类专家标注的逐步推理过程,可综合全面评估模型识别错误步骤能力。这一评估标准也已开源。

阿里云通义开源最强过程奖励PRM模型 7B尺寸比GPT-4o更能发现推理错误

此外,在ProcessBench上对错误步骤的识别能力的评估中,72B及7B尺寸的Qwen2.5-Math-PRM均显示出显著的优势,7B版本的PRM模型不但超越同尺寸开源PRM模型,甚至超越了闭源GPT-4o-0806。这证明了过程奖励模型(PRM)能够显著提高推理的可靠性,为未来开发推理过程监督技术开辟了新的途径。

【本文结束】如需转载请务必注明出处:快科技

责任编辑:秋白

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-01-16 17:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

阿里最新开源推理模型发布:性能比肩DeepSeek-R1
阿里通义发布最新开源推理模型,称其性能比肩DeepSeek-R1。3月6日凌晨,阿里巴巴正式发布最新的开源推理模型通义千问QwQ-32B
2025-03-06 13:22:00
通义千问再放大招:720亿大模型开源,全尺寸赶上LLaMA-2,还有移动端可用的18亿模型
时隔一个月,通义千问又放大招了!在一个月前的阿里云栖大会上,阿里正式发布通义千问2.0版本,在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上,都有较大提升。并且,阿
2023-12-01 21:07:00
本文转自:新华网12月1日,阿里云通义千问720亿参数模型Qwen-72B宣布开源。该模型基于3T tokens高质量数据训练
2023-12-01 13:33:00
阿里发布全球最强开源模型千问3 通义App第一时间已上线
快科技4月29日消息,阿里新一代通义千问开源模型Qwen3(简称千问3),现已在通义App与通义网页版(tongyi.com)全面上线
2025-04-29 11:35:00
...阿里巴巴又默默干了件大事:发布并开源全新的推理模型通义千问QwQ-32B。千问QwQ-32B是阿里探索推理模型的最新成果
2025-03-07 07:27:00
阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源
IT之家 9 月 2 日消息,阿里云通义千问今日宣布开源第二代视觉语言模型 Qwen2-VL,并推出 2B、7B 两个尺寸及其量化版本模型
2024-09-03 09:45:00
阿里云CTO周靖人:全面投入升级AI大基建
...每个AI和应用提供高性能、高效的算力服务。大会现场,通义大模型迎来了年度重磅发布,基础模型升级,性能媲美GPT-4o,发布最强开源模型Qwen2.5系列,同时上架语言、音频、
2024-09-19 15:53:00
阿里云重磅升级全栈AI体系,一文看懂云栖大会技术发布
...阿里云智能首席技术官周靖人发布了多项重磅技术更新。通义大模型7连发,在模型智能水平、Agent工具调用和Coding能力、深度推理、多模态等方面实现多项突破。2025云栖大会
2025-09-24 13:30:00
中国企业调用大模型日均超10万亿Tokens,阿里通义份额第一
...场大模型的日均总消耗量为 10.2 万亿 Tokens,其中,阿里通义占比17.7%位列第一,成为目前中国企业选择最多的大模型
2025-09-01 13:55:00
更多关于科技的资讯:
车联天下与AMD达成战略合作,共推智能网联汽车技术升级
全球汽车产业正加速向电动化、智能化和网联化转型,智能驾驶和车载娱乐已成为未来出行体验的重要驱动力。AI和高性能计算技术在车辆感知
2026-01-16 21:22:00
百奥赛图(688796)以基因编辑技术起家,是一家创新药临床前CRO及生物技术公司,专门为创新药企业提供抗体药物发现及临床前研发服务
2026-01-16 22:48:00
中新经纬1月16日电 16日下午,市场监管总局召开食品安全专题新闻发布会。市场监管总局食品协调司副司长母兰在发布会上称
2026-01-16 21:34:00
在生成式AI重塑信息检索范式的当下,GEO(生成式引擎优化)已从营销小众赛道跃升为企业数字化转型的核心增长引擎。据艾瑞咨询《2026 GEO行业报告》显示
2026-01-16 21:23:00
中国优秀AI企业2026年展望:AI技术迭代深化引领商业化规模化落地 全球AI产业进入技术深耕与商业化兑现双轮加速期,中国优秀AI企业迎来价值释放关键窗口
2026-01-16 17:14:00
8个省级高质量数据集、324家省级“晨星工厂” 临沂扎实筑牢“人工智能+”发展根基
鲁网1月16日讯 (记者 李文静)数据是赋能人工智能训练的原材料。1月16日上午,临沂市人民政府新闻办公室召开新闻发布会
2026-01-16 17:18:00
中新经纬1月16日电 题:中国电影IP的长期主义,还缺什么?作者 张志鹏 中国广告协会文创与IP专业委员会副主任近日,玩具制造商桑尼森迪正式递表港交所
2026-01-16 17:22:00
贾国龙最新发声:今晚10点 将就罗永浩对西贝的重大污蔑诽谤全面回应
华商网讯 1月16日,西贝贾国龙发文称,将就罗永浩对西贝的重大污蔑诽谤一一全面回应。据了解,此前,1月16日,罗永浩再次发长文回应西贝贾国龙近日言论
2026-01-16 18:46:00
第七届皖新传媒读者节全省启动
大皖新闻讯 1月17日起,以“阅见万象 奔向前程”为主题的第七届皖新传媒读者节在全省新华书店市、县门店正式拉开帷幕,活动将持续至2月1日
2026-01-16 18:55:00
双主题活动+三重深度体验,金鸡湖教育集团科技节展现赋能成长新路径
江南时报讯 当知识课堂与前沿科技相遇,当学校携手行业大咖跨界联动,金鸡湖教育集团的科技节彻底点燃了整个校园。两大主题活动
2026-01-16 17:06:00
刘典(学者)2025年春天,《杭州模式:DeepSeek与中国算谷》出版了。对我而言,一本书写完了,从来不是结束,而是带着这些思考
2026-01-16 16:56:00
时间枝头 生活向新
这些关于“具体生活”的探索与坚守,既是过往一年的珍贵注脚,更铺就了通往新岁的温暖底色。 吴卓平回顾过去这一年,杭州的文化
2026-01-16 16:56:00
苏州黄埭镇新型电力电子OPC创新社区启动
江南时报讯1月15日,位于苏州市相城区黄埭镇的新型电力电子OPC创新社区正式启动。作为相城区的工业重镇,黄埭镇拥有深厚的制造业底蕴和完善的产业链配套
2026-01-16 16:56:00
千问App大规模功能上新,实现一句话找真题、讲难题
1月15日,千问App实现大规模功能上新,支持用一句话实现超过400项任务。其中,学习领域的“办事力”显著增强,用户只需一句话即可找卷子
2026-01-16 14:00:00
Z世代购物车|排队两小时!“年轻人的十字绣”为何火热?
中新经纬1月16日电 (王玉玲)一种名为“拼豆”的手工像素画在社交平台上持续火热。在小红书上,话题“我染上了拼豆”浏览量近28亿次
2026-01-16 14:23:00