• 我的订阅
  • 科技

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

类别:科技 发布时间:2024-09-12 09:58:00 来源:量子位

不必增加模型参数,计算资源相同,小模型性能超过比它大14倍的模型!

谷歌DeepMind最新研究引发热议,甚至有人表示这可能就是OpenAI即将发布的新模型草莓所用的方法。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

研究团队探究了在大模型推理时进行计算优化的方法,根据给定的prompt难度,动态地分配测试时(Test-Time)的计算资源。

结果发现这种方法在一些情况下比单纯扩展模型参数更经济有效。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

换句话说,在预训练阶段花费更少的计算资源,而在推理阶段花费更多,这种策略可能更好。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

推理时用额外计算来改进输出

这项研究的核心问题是——

在一定计算预算内解决prompt问题,不同的计算策略对于不同问题的有效性有显著差异。我们应如何评估并选择最适合当前问题的测试时计算策略?这种策略与仅仅使用一个更大的预训练模型相比,效果如何?

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

DeepMind研究团队探究了两种主要机制来扩展测试时的计算。

一种是针对基于过程的密集验证器奖励模型(PRM)进行搜索。

PRM可以在模型生成答案过程中的每个步骤都提供评分,用于引导搜索算法,动态调整搜索策略,通过在生成过程中识别错误或低效的路径,帮助避免在这些路径上浪费计算资源。

另一种方法是在测试时根据prompt自适应地更新模型的响应分布。

模型不是一次性生成最终答案,而是逐步修改和改进它之前生成的答案,按顺序进行修订。

以下是并行采样与顺序修订的比较。并行采样独立生成N个答案,而顺序修订则是每个答案依赖于前一次生成的结果,逐步修订。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

通过对这两种策略的研究,团队发现不同方法的有效性高度依赖于prompt的难度。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

由此,团队提出了“计算最优”扩展策略,根据prompt难度自适应地分配测试时的计算资源。

他们将问题分为五个难度等级并为每个等级选择最佳策略。

如下图左侧,可以看到,在修订场景中,标准的best-of-N方法(生成多个答案后,从中选出最优的一个)与计算最优扩展相比,它们之间的差距逐渐扩大,使得计算最优扩展在使用少4倍的测试计算资源的情况下,能够超越best-of-N方法。

同样在PRM搜索环境中,计算最优扩展在初期相比best-of-N有显著的提升,甚至在一些情况下,以少4倍的计算资源接近或超过best-of-N的表现。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

上图右侧比较了在测试阶段进行计算最优扩展的PaLM 2-S模型与不使用额外测试计算的预训练模型之间的表现,后者是一个*大14倍的预训练模型。

研究人员考虑了在两种模型中都预期会有 tokens的预训练和 tokens的推理。可以看到,在修订场景中(右上),当 << 时,测试阶段的计算通常优于额外的预训练。

然而,随着推理与预训练token比率的增加,在简单问题上测试阶段计算仍然是首选。而在较难的问题上,预训练在这些情况下更为优越,研究人员在PRM搜索场景中也观察到了类似的趋势。

研究还比较了测试时计算与增加预训练的效果,在计算量匹配的情况下,对简单和中等难度的问题,额外的测试时计算通常优于增加预训练。

而对于难度较大的问题,增加预训练计算更为有效。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

总的来说,研究揭示了当前的测试时计算扩展方法可能无法完全替代预训练的扩展,但已显示出在某些情况下的优势。

引发网友热议

这项研究被网友po出来后,引发热议。

有网友甚至表示这解释了OpenAI“草莓”模型的推理方法。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

为什么这么说?

原来就在昨晚半夜,外媒The Information放出消息,爆料OpenAI新模型草莓计划未来两周内发布,推理能力大幅提高,用户输入无需额外的提示词。

草莓没有一味追求Scaling Law,与其它模型的最大区别就是会在回答前进行“思考”。

所以草莓响应需要10-20秒。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

这位网友猜测,草莓可能就是用了类似谷歌DeepMind这项研究的方法(doge):

如果你不认同,给个替代推理方法解释!

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

解释就解释:

本文探讨了 best-of-n 采样和蒙特卡洛树搜索(MCTS)。草莓可能是一种具有特殊tokens(例如回溯、规划等)的混合深度模型。它可能会通过人类数据标注员和来自容易验证领域(如数学/编程)的强化学习进行训练。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

论文链接:https://arxiv.org/pdf/2408.03314

参考链接:[1]https://x.com/deedydas/status/1833539735853449360[2]https://x.com/rohanpaul_ai/status/1833648489898594815

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-12 11:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

o1突发内幕曝光?谷歌更早揭示原理 大模型光有软件不存在护城河
发布不到1周,OpenAI最强模型o1的护城河已经没有了。有人发现,谷歌DeepMind一篇发表在8月的论文,揭示原理和o1的工作方式几乎一致。o1突发内幕曝光?谷歌更早揭示原理
2024-09-17 22:51:00
影响英伟达根本逻辑的大争论:OpenAI改变策略意味着什么?谁在撒谎?
大模型预训练“缩放定律”定律失效?模型推理成“解药”,英伟达一家独大格局要变天?“缩放定律”指导下,AI大模型预训练目前遭遇瓶颈。据路透12日报道,硅谷主要AI实验室的新模型训练
2024-11-13 14:09:00
OpenAI 超强 o1 智商超 120 遥遥领先于其他模型:1 小时写出 NASA 博士 1 年代码,最新编程赛超越 99.8% 选手
...成的博士论文代码,竟被 AI 在 1 个小时之内实现了。o1 模型已经强到,能够直出博士论文代码了!来自加州大学欧文分校(UCI)的物理学博士 Kyle Kabasares
2024-09-18 09:49:00
摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练测试
快科技6月14日消息,摩尔线程与全学科教育AI大模型“师者AI”联合宣布,双方已完成大模型训练测试。师者AI基于摩尔线程夸娥(KUAE)千卡智算集群,完成了其70亿参数大模型的高
2024-06-14 11:37:00
思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理
几天前 OpenAI 新模型 o1 的发布,再次引发了人们对大语言模型的高度关注和讨论。而 o1 发布之所以如此“轰动”,是因为它与此前大模型由语言驱动用于聊天或语音助手有本质的
2024-09-20 13:33:00
阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权
出品 | 搜狐科技作者 | 梁昌均编辑 | 杨锦一口气开源8款模型,阿里通义又上新!4月29日一大早,阿里开源发布Qwen3
2025-04-29 16:17:00
360智脑7b参数模型采用3.4万亿tokens训练
...12日消息,360公司日前在GitHub上开源了360智脑7B(70亿参数模型)。360智脑大模型采用3.4万亿Tokens的语料库训练
2024-04-14 01:04:00
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面
2024-09-06 10:01:00
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
大模型领域的技术发展,今天起再次「从 1 开始」了。大语言模型还能向上突破,OpenAI 再次证明了自己的实力。北京时间 9 月 13 日午夜
2024-09-13 16:42:00
更多关于科技的资讯:
悠湖湾商业综合体项目基本完工
近日,江宁区上秦淮未来科技城悠湖湾商业综合体基本完工。项目总建面约17.33万平方米,含6层裙楼与14层塔楼,裙楼将打造一站式体验空间,涵盖运动、餐饮等业态,提供多主题消费体验。
2025-08-27 07:36:00
智能制造是制造强国建设的核心赛道,更是筑牢实体经济根基的关键支撑。近年来,泰安市市场监管局将标准化作为驱动制造业高质量发展的核心引擎
2025-08-26 10:07:00
近日,山东移动淄博分公司济东数据中心再传喜讯——在第三届“华彩杯”算力大赛中区决赛中,该中心凭借卓越的绿色节能表现荣获三等奖
2025-08-26 10:25:00
本报讯 (记者 王薛淄)记者从中国香料香精化妆品工业协会获悉,2025年中国香料香精化妆品行业年会暨精品博览会(以下简称“2025CAME”)将于9月25日至27日在江苏南京扬子江国际会议中心举行
2025-08-26 10:55:00
鲁迅故里景区投诉人社交账号已无法查看
8月25日,绍兴鲁迅纪念馆公众号发文,关于“鲁迅故里景墙画面误导青少年”一事回应。近日,有位孙姓女士在社交平台发帖称“鲁迅故里景墙使用鲁迅吸烟画面
2025-08-26 10:59:00
北京机器人为何更聪明自主?
北京机器人在赛跑、足球等比赛中从跑步、踢球、跳高、跳远到场景应用,从遥控到全自主,在8月14日至17日举行的2025首届世界人形机器人运动会上
2025-08-26 11:12:00
AIGC短片《你的样子》运用人工智能技术“复原”了杨靖宇、赵尚志、赵一曼、左权、彭雪枫、张自忠等十余位抗日英烈拍摄历史照片时的鲜活模样。(技术支持:南京超级头脑信息技术责任有限公
2025-08-26 11:17:00
天籁之音,穿越时光回响,缅怀那段不朽历史。逝去的英雄与故人,面容虽模糊于岁月,但精神永存。AI技术奇迹再现,让一张张珍贵的照片重焕光彩
2025-08-26 11:19:00
北京礼品展文创区成爆款集合地
本报记者 赵 曦 □ 唐 瑞在刚刚落幕的第52届中国北京国际礼品、赠品及家庭用品展览会上,文创与玩具展区格外热闹。琳琅满目的展品中
2025-08-26 11:26:00
眼下,新的入托季、入学季正在开启,与以往不同的是,今年秋季学期起,公办幼儿园学前一年在园儿童保育教育费将被免除。具体来说
2025-08-26 11:26:00
一张小小的碳标签,正在成为撬动轻工业绿色转型的关键支点,从源头到终端系统重塑着“中国制造”的低碳竞争力。8月6日,在本报刊登《轻工行业积极推进绿色低碳循环发展战略》一文中
2025-08-26 11:27:00
贵州磷化磷镁材料在全国镁质材料发展大会受关注
日前,中国菱镁行业协会镁质材料发展大会在山东济南举办。贵州磷化集团磷美公司携磷镁产品受邀参会,并凭借其在技术研发与产品创新上的表现
2025-08-26 11:31:00
网易云音乐声明:你的隐私我守护,没有“访客记录”功能
8月25日,网易云音乐微博发文称:你的隐私我守护,网易云没有“访客记录”。近期,我们关注到网上有用户询问“在网易云浏览他人主页
2025-08-26 11:33:00
在竞争白热化的重庆房地产市场,房产中介机构如何杀出重围?仅靠门店数量与人力堆砌的粗放式扩张时代已然过去。优居重庆以其独特的平台化赋能模式和精准的差异化服务策略
2025-08-26 12:09:00
超级球球首款疗愈级AI机器人即将亮相IOTE国际物联网展
由超级有爱(杭州)智能科技有限公司研发的首款疗愈级AI机器人“超级球球”,即将于8月27日至29日,在IOTE 2025 第二十四届国际物联网展·深圳站(以下简称
2025-08-26 13:21:00