• 我的订阅
  • 科技

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

类别:科技 发布时间:2024-09-12 09:58:00 来源:量子位

不必增加模型参数,计算资源相同,小模型性能超过比它大14倍的模型!

谷歌DeepMind最新研究引发热议,甚至有人表示这可能就是OpenAI即将发布的新模型草莓所用的方法。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

研究团队探究了在大模型推理时进行计算优化的方法,根据给定的prompt难度,动态地分配测试时(Test-Time)的计算资源。

结果发现这种方法在一些情况下比单纯扩展模型参数更经济有效。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

换句话说,在预训练阶段花费更少的计算资源,而在推理阶段花费更多,这种策略可能更好。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

推理时用额外计算来改进输出

这项研究的核心问题是——

在一定计算预算内解决prompt问题,不同的计算策略对于不同问题的有效性有显著差异。我们应如何评估并选择最适合当前问题的测试时计算策略?这种策略与仅仅使用一个更大的预训练模型相比,效果如何?

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

DeepMind研究团队探究了两种主要机制来扩展测试时的计算。

一种是针对基于过程的密集验证器奖励模型(PRM)进行搜索。

PRM可以在模型生成答案过程中的每个步骤都提供评分,用于引导搜索算法,动态调整搜索策略,通过在生成过程中识别错误或低效的路径,帮助避免在这些路径上浪费计算资源。

另一种方法是在测试时根据prompt自适应地更新模型的响应分布。

模型不是一次性生成最终答案,而是逐步修改和改进它之前生成的答案,按顺序进行修订。

以下是并行采样与顺序修订的比较。并行采样独立生成N个答案,而顺序修订则是每个答案依赖于前一次生成的结果,逐步修订。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

通过对这两种策略的研究,团队发现不同方法的有效性高度依赖于prompt的难度。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

由此,团队提出了“计算最优”扩展策略,根据prompt难度自适应地分配测试时的计算资源。

他们将问题分为五个难度等级并为每个等级选择最佳策略。

如下图左侧,可以看到,在修订场景中,标准的best-of-N方法(生成多个答案后,从中选出最优的一个)与计算最优扩展相比,它们之间的差距逐渐扩大,使得计算最优扩展在使用少4倍的测试计算资源的情况下,能够超越best-of-N方法。

同样在PRM搜索环境中,计算最优扩展在初期相比best-of-N有显著的提升,甚至在一些情况下,以少4倍的计算资源接近或超过best-of-N的表现。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

上图右侧比较了在测试阶段进行计算最优扩展的PaLM 2-S模型与不使用额外测试计算的预训练模型之间的表现,后者是一个*大14倍的预训练模型。

研究人员考虑了在两种模型中都预期会有 tokens的预训练和 tokens的推理。可以看到,在修订场景中(右上),当 << 时,测试阶段的计算通常优于额外的预训练。

然而,随着推理与预训练token比率的增加,在简单问题上测试阶段计算仍然是首选。而在较难的问题上,预训练在这些情况下更为优越,研究人员在PRM搜索场景中也观察到了类似的趋势。

研究还比较了测试时计算与增加预训练的效果,在计算量匹配的情况下,对简单和中等难度的问题,额外的测试时计算通常优于增加预训练。

而对于难度较大的问题,增加预训练计算更为有效。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

总的来说,研究揭示了当前的测试时计算扩展方法可能无法完全替代预训练的扩展,但已显示出在某些情况下的优势。

引发网友热议

这项研究被网友po出来后,引发热议。

有网友甚至表示这解释了OpenAI“草莓”模型的推理方法。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

为什么这么说?

原来就在昨晚半夜,外媒The Information放出消息,爆料OpenAI新模型草莓计划未来两周内发布,推理能力大幅提高,用户输入无需额外的提示词。

草莓没有一味追求Scaling Law,与其它模型的最大区别就是会在回答前进行“思考”。

所以草莓响应需要10-20秒。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

这位网友猜测,草莓可能就是用了类似谷歌DeepMind这项研究的方法(doge):

如果你不认同,给个替代推理方法解释!

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

解释就解释:

本文探讨了 best-of-n 采样和蒙特卡洛树搜索(MCTS)。草莓可能是一种具有特殊tokens(例如回溯、规划等)的混合深度模型。它可能会通过人类数据标注员和来自容易验证领域(如数学/编程)的强化学习进行训练。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

论文链接:https://arxiv.org/pdf/2408.03314

参考链接:[1]https://x.com/deedydas/status/1833539735853449360[2]https://x.com/rohanpaul_ai/status/1833648489898594815

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-12 11:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

o1突发内幕曝光?谷歌更早揭示原理 大模型光有软件不存在护城河
发布不到1周,OpenAI最强模型o1的护城河已经没有了。有人发现,谷歌DeepMind一篇发表在8月的论文,揭示原理和o1的工作方式几乎一致。o1突发内幕曝光?谷歌更早揭示原理
2024-09-17 22:51:00
影响英伟达根本逻辑的大争论:OpenAI改变策略意味着什么?谁在撒谎?
大模型预训练“缩放定律”定律失效?模型推理成“解药”,英伟达一家独大格局要变天?“缩放定律”指导下,AI大模型预训练目前遭遇瓶颈。据路透12日报道,硅谷主要AI实验室的新模型训练
2024-11-13 14:09:00
OpenAI 超强 o1 智商超 120 遥遥领先于其他模型:1 小时写出 NASA 博士 1 年代码,最新编程赛超越 99.8% 选手
...成的博士论文代码,竟被 AI 在 1 个小时之内实现了。o1 模型已经强到,能够直出博士论文代码了!来自加州大学欧文分校(UCI)的物理学博士 Kyle Kabasares
2024-09-18 09:49:00
阿里千问最强模型重磅亮相!性能媲美GPT-5.2、Gemini 3 Pro
1月26日,阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking,创下数项权威评测全球新纪录,性能媲美GPT-5
2026-01-27 07:38:00
摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练测试
快科技6月14日消息,摩尔线程与全学科教育AI大模型“师者AI”联合宣布,双方已完成大模型训练测试。师者AI基于摩尔线程夸娥(KUAE)千卡智算集群,完成了其70亿参数大模型的高
2024-06-14 11:37:00
思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理
几天前 OpenAI 新模型 o1 的发布,再次引发了人们对大语言模型的高度关注和讨论。而 o1 发布之所以如此“轰动”,是因为它与此前大模型由语言驱动用于聊天或语音助手有本质的
2024-09-20 13:33:00
阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权
出品 | 搜狐科技作者 | 梁昌均编辑 | 杨锦一口气开源8款模型,阿里通义又上新!4月29日一大早,阿里开源发布Qwen3
2025-04-29 16:17:00
360智脑7b参数模型采用3.4万亿tokens训练
...12日消息,360公司日前在GitHub上开源了360智脑7B(70亿参数模型)。360智脑大模型采用3.4万亿Tokens的语料库训练
2024-04-14 01:04:00
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面
2024-09-06 10:01:00
更多关于科技的资讯:
实现从光芯片设计到模块封装量产每日商报讯 近日,位于拱墅区大运河数智未来城省级高新区核心区块的拱政工出【2025】6号地块标准厂房(一期)项目(以下称“芯速联高速硅光模块智能制造基地”)正式完工
2026-03-12 08:12:00
涂鸦智能:以开放平台与AI能力重塑宠物喂食器解决方案
宠物智能用品正从基础的“联网控制”迈向“主动关怀”的深度智能时代。传统宠物喂食器多限于手机App远程定时出粮,难以应对动态调整食量
2026-03-12 08:34:00
纵览原创|石家庄“装虾”线上线下冰火两重天:多家线下店铺称“没听说过”,有线上卖家已安装20多单
见习记者 朱荣琛“你养龙虾了吗?”成为近期网络热议的话题。最近,这款名为OpenClaw(网友俗称“龙虾”)的开源AI智能体工具迅速走红网络
2026-03-12 08:47:00
长白时评评论员 崔越然近期一款名为OpenClaw的开源人工智能体工具火遍全网,因其鲜红的图标被广大网民亲切地称为“龙虾”
2026-03-12 10:29:00
想尝鲜,又怕烫手 西湖边,数百人排队免费领养本地版“龙虾”
西湖边掀起“养虾”热潮。春夜渐凉,西湖边的“养虾”热潮,到昨晚8点仍没有退去。从中午开始,滨次元AI文旅驿站外的12号场地就排起了长队
2026-03-12 09:13:00
杭州日报讯 近日,在中国纺织信息中心浙江分中心·国际纺织时尚交流中心的组织下,涛搏纺织、凯亨纺织、卓伦纺织、优时进出口等10家绍兴柯桥纺织标杆企业组团亮相越南西贡会展中心
2026-03-12 07:11:00
杭州日报讯 “开年前两个月,订单量同比两位数增长,完成甚至突破预定生产目标,我们信心很足!”“产线满负荷运转,订单排得满满当当
2026-03-12 07:11:00
数字贸易平台海外版上线杭州日报讯 昨日,在2026年中国国际针织(春夏)博览会上,濮院毛衫数字贸易平台海外版正式上线,其专属海外品牌“PlinkX”同步亮相
2026-03-12 07:11:00
推动进口贸易与消费升级深度融合杭州日报讯 为深入推进高水平对外开放,释放中国超大规模市场红利,推动进口贸易与消费升级深度融合
2026-03-12 07:11:00
82岁老人换了新手机,但不熟悉操作,结果误开通多项收费业务。3月11日,老人收到扣费短信后向网格员求助,顺利取消了扣费服务
2026-03-11 17:36:00
中新经纬3月11日电 (董湘依)近年来,中国文化“新三样”(网文、网剧、网游)在海外迅速走红。全国两会期间,全国政协委员
2026-03-11 19:27:00
中新经纬3月11日电 题:“养龙虾”火出圈 ,算力变成稀缺资源作者 薛洪言 星图金融研究院常务副院长、苏商银行特约研究员2026年的早春
2026-03-11 19:28:00
河北新闻网讯(闫丽颖、唐福刚)近日,开滦股份范各庄矿聚焦“物理隔离+智能管控”核心需求,创新应用一套具备智能闭锁、声光报警
2026-03-11 19:51:00
中国联通eSIM尝鲜季再添新力
3月11日上午,中国联通eSIM尝鲜季——三星国内首款eSIM手机Galaxy S26系列首销仪式在西单北营业厅隆重举行
2026-03-11 14:14:00
大皖新闻讯 家里空调、冰箱等家电出故障,找维修却怕遇上“小病大修”“坐地起价”。别愁,专为安徽消费者打造的家电维修“放心平台”来了
2026-03-11 14:55:00