• 我的订阅
  • 科技

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

类别:科技 发布时间:2024-09-12 09:58:00 来源:量子位

不必增加模型参数,计算资源相同,小模型性能超过比它大14倍的模型!

谷歌DeepMind最新研究引发热议,甚至有人表示这可能就是OpenAI即将发布的新模型草莓所用的方法。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

研究团队探究了在大模型推理时进行计算优化的方法,根据给定的prompt难度,动态地分配测试时(Test-Time)的计算资源。

结果发现这种方法在一些情况下比单纯扩展模型参数更经济有效。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

换句话说,在预训练阶段花费更少的计算资源,而在推理阶段花费更多,这种策略可能更好。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

推理时用额外计算来改进输出

这项研究的核心问题是——

在一定计算预算内解决prompt问题,不同的计算策略对于不同问题的有效性有显著差异。我们应如何评估并选择最适合当前问题的测试时计算策略?这种策略与仅仅使用一个更大的预训练模型相比,效果如何?

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

DeepMind研究团队探究了两种主要机制来扩展测试时的计算。

一种是针对基于过程的密集验证器奖励模型(PRM)进行搜索。

PRM可以在模型生成答案过程中的每个步骤都提供评分,用于引导搜索算法,动态调整搜索策略,通过在生成过程中识别错误或低效的路径,帮助避免在这些路径上浪费计算资源。

另一种方法是在测试时根据prompt自适应地更新模型的响应分布。

模型不是一次性生成最终答案,而是逐步修改和改进它之前生成的答案,按顺序进行修订。

以下是并行采样与顺序修订的比较。并行采样独立生成N个答案,而顺序修订则是每个答案依赖于前一次生成的结果,逐步修订。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

通过对这两种策略的研究,团队发现不同方法的有效性高度依赖于prompt的难度。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

由此,团队提出了“计算最优”扩展策略,根据prompt难度自适应地分配测试时的计算资源。

他们将问题分为五个难度等级并为每个等级选择最佳策略。

如下图左侧,可以看到,在修订场景中,标准的best-of-N方法(生成多个答案后,从中选出最优的一个)与计算最优扩展相比,它们之间的差距逐渐扩大,使得计算最优扩展在使用少4倍的测试计算资源的情况下,能够超越best-of-N方法。

同样在PRM搜索环境中,计算最优扩展在初期相比best-of-N有显著的提升,甚至在一些情况下,以少4倍的计算资源接近或超过best-of-N的表现。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

上图右侧比较了在测试阶段进行计算最优扩展的PaLM 2-S模型与不使用额外测试计算的预训练模型之间的表现,后者是一个*大14倍的预训练模型。

研究人员考虑了在两种模型中都预期会有 tokens的预训练和 tokens的推理。可以看到,在修订场景中(右上),当 << 时,测试阶段的计算通常优于额外的预训练。

然而,随着推理与预训练token比率的增加,在简单问题上测试阶段计算仍然是首选。而在较难的问题上,预训练在这些情况下更为优越,研究人员在PRM搜索场景中也观察到了类似的趋势。

研究还比较了测试时计算与增加预训练的效果,在计算量匹配的情况下,对简单和中等难度的问题,额外的测试时计算通常优于增加预训练。

而对于难度较大的问题,增加预训练计算更为有效。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

总的来说,研究揭示了当前的测试时计算扩展方法可能无法完全替代预训练的扩展,但已显示出在某些情况下的优势。

引发网友热议

这项研究被网友po出来后,引发热议。

有网友甚至表示这解释了OpenAI“草莓”模型的推理方法。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

为什么这么说?

原来就在昨晚半夜,外媒The Information放出消息,爆料OpenAI新模型草莓计划未来两周内发布,推理能力大幅提高,用户输入无需额外的提示词。

草莓没有一味追求Scaling Law,与其它模型的最大区别就是会在回答前进行“思考”。

所以草莓响应需要10-20秒。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

这位网友猜测,草莓可能就是用了类似谷歌DeepMind这项研究的方法(doge):

如果你不认同,给个替代推理方法解释!

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

解释就解释:

本文探讨了 best-of-n 采样和蒙特卡洛树搜索(MCTS)。草莓可能是一种具有特殊tokens(例如回溯、规划等)的混合深度模型。它可能会通过人类数据标注员和来自容易验证领域(如数学/编程)的强化学习进行训练。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

论文链接:https://arxiv.org/pdf/2408.03314

参考链接:[1]https://x.com/deedydas/status/1833539735853449360[2]https://x.com/rohanpaul_ai/status/1833648489898594815

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-12 11:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

o1突发内幕曝光?谷歌更早揭示原理 大模型光有软件不存在护城河
发布不到1周,OpenAI最强模型o1的护城河已经没有了。有人发现,谷歌DeepMind一篇发表在8月的论文,揭示原理和o1的工作方式几乎一致。o1突发内幕曝光?谷歌更早揭示原理
2024-09-17 22:51:00
影响英伟达根本逻辑的大争论:OpenAI改变策略意味着什么?谁在撒谎?
大模型预训练“缩放定律”定律失效?模型推理成“解药”,英伟达一家独大格局要变天?“缩放定律”指导下,AI大模型预训练目前遭遇瓶颈。据路透12日报道,硅谷主要AI实验室的新模型训练
2024-11-13 14:09:00
OpenAI 超强 o1 智商超 120 遥遥领先于其他模型:1 小时写出 NASA 博士 1 年代码,最新编程赛超越 99.8% 选手
...成的博士论文代码,竟被 AI 在 1 个小时之内实现了。o1 模型已经强到,能够直出博士论文代码了!来自加州大学欧文分校(UCI)的物理学博士 Kyle Kabasares
2024-09-18 09:49:00
摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练测试
快科技6月14日消息,摩尔线程与全学科教育AI大模型“师者AI”联合宣布,双方已完成大模型训练测试。师者AI基于摩尔线程夸娥(KUAE)千卡智算集群,完成了其70亿参数大模型的高
2024-06-14 11:37:00
思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理
几天前 OpenAI 新模型 o1 的发布,再次引发了人们对大语言模型的高度关注和讨论。而 o1 发布之所以如此“轰动”,是因为它与此前大模型由语言驱动用于聊天或语音助手有本质的
2024-09-20 13:33:00
阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权
出品 | 搜狐科技作者 | 梁昌均编辑 | 杨锦一口气开源8款模型,阿里通义又上新!4月29日一大早,阿里开源发布Qwen3
2025-04-29 16:17:00
360智脑7b参数模型采用3.4万亿tokens训练
...12日消息,360公司日前在GitHub上开源了360智脑7B(70亿参数模型)。360智脑大模型采用3.4万亿Tokens的语料库训练
2024-04-14 01:04:00
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面
2024-09-06 10:01:00
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
大模型领域的技术发展,今天起再次「从 1 开始」了。大语言模型还能向上突破,OpenAI 再次证明了自己的实力。北京时间 9 月 13 日午夜
2024-09-13 16:42:00
更多关于科技的资讯:
GMT for Kids七赴进博会,以科技创新构筑儿童护脊新高度
2025年11月5日,第八届中国国际进口博览会(以下简称"进博会")在上海隆重举行。作为全球首个以进口为主题的国家级展会
2025-11-10 14:09:00
近日,2025年广东省职工职业技能竞赛暨“羊城工匠杯”生成式人工智能系统应用员大赛决赛在广州拉开帷幕。在这场人工智能系统应用领域的巅峰对决中
2025-11-10 14:40:00
2025中国企业全球形象高峰论坛| 完美世界总编辑伊迪:中国文化“出海” 要与世界文明“相融”
大皖新闻讯 完美世界集团是全球领先的文化娱乐产业集团,涵盖影视、游戏、电竞等板块,旗下产品遍布美、欧、亚等全球100多个国家和地区
2025-11-10 15:14:00
近日,民生银行石狮支行通过开展上门为企业客户办理开户的专项服务,将高效便捷的对公账户服务直接送到企业身边,以实际行动诠释了“诚信专业
2025-11-10 15:36:00
2025中国企业全球形象高峰论坛|小红书副总裁许磊:企业形象不仅是产品特征的物理展示
大皖新闻讯 2025年初,随着一大批海外用户的涌入,“小红书”成为沟通中国与国外网民的绝佳窗口。那么,在当前中国企业扬帆出海的背景下
2025-11-10 15:50:00
折叠屏购物新突破 荣耀x淘宝联合推出购物比价功能
随着消费电子大屏化趋势的深化,国内大屏设备市场出货量连续快速增长,折叠屏已成为市场增长的核心引擎。恰逢双十一,“如何选到高性价比的商品”是消费者的核心需求
2025-11-10 16:57:00
随着毕业季的临近,众多广州高校的应届生面临着一个共同的课题:如何选择一家既符合个人职业发展,又具备长远成长潜力的优质企业
2025-11-10 16:57:00
力纳克荣膺EcoVadis可持续发展铜牌评级,跻身全球前35%阵营
近日,全球电动推杆系统领域的头部企业——丹麦力纳克(LINAK)正式宣布,于2025年5月荣获国际公认的企业可持续发展评估机构EcoVadis授予的铜牌评级
2025-11-10 16:57:00
双十一营销大战来袭!号百公司获客宝三大核心服务让中小商户生意更轻松
年底聚餐、亲友小聚、婚庆喜宴……当全网聚焦线上大促时,线下“3公里生活圈”也已进入消费旺季。对于沿街中小商户来说,这正是抢占本地流量的黄金窗口期
2025-11-10 16:58:00
2025华为鸿蒙智家深圳启幕,任鑫朦女士助力智能家居设计创新
2025年9月2日,2025华为鸿蒙智家设计大赛·深圳站开幕礼于鹏瑞莱佛士酒店云颂音乐厅盛大启幕。本次活动以“智美融合
2025-11-10 16:58:00
亚洲策略孵化SAC,AI进入去中心化时代,重写智能的信任边界
在AI成为全球竞争焦点的当下,一个新的问题正在被频繁提起——如果人工智能成为基础设施,谁来为它背书?从算法的透明度到数据的归属权
2025-11-10 17:00:00
2025年天猫双11落下关键节点,星图数据显示截至10月31日,全网大促累计销售额达10026亿元,天猫仍居综合电商平台榜首
2025-11-10 17:00:00
阿克人类营养:进博会“老面孔”,为中国消费者健康注入“海洋动能”
随着社会对健康老龄化的关注持续升温,如何通过科学营养手段维护心脑健康、保持行动能力,正成为社会普遍关注的健康议题。在第八届中国国际进口博览会上
2025-11-10 17:01:00
同行三十载,进博会全勤生高通与中国伙伴共赴智能计算新未来
大河网讯(记者 赵汉青)11月5日至10日,第八届中国国际进口博览会在上海成功举办,上百家跨国企业携前沿技术与创新成果参与展会
2025-11-10 19:18:00
河北建材职业技术学院受邀为天秦装备开展AI办公培训
河北新闻网讯 10月31日,河北建材职业技术学院信息工程系大数据应用专业群带头人肖宇鹏老师受邀走进秦皇岛天秦装备制造股份有限公司
2025-11-10 19:33:00