• 我的订阅
  • 科技

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

类别:科技 发布时间:2024-09-12 09:58:00 来源:量子位

不必增加模型参数,计算资源相同,小模型性能超过比它大14倍的模型!

谷歌DeepMind最新研究引发热议,甚至有人表示这可能就是OpenAI即将发布的新模型草莓所用的方法。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

研究团队探究了在大模型推理时进行计算优化的方法,根据给定的prompt难度,动态地分配测试时(Test-Time)的计算资源。

结果发现这种方法在一些情况下比单纯扩展模型参数更经济有效。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

换句话说,在预训练阶段花费更少的计算资源,而在推理阶段花费更多,这种策略可能更好。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

推理时用额外计算来改进输出

这项研究的核心问题是——

在一定计算预算内解决prompt问题,不同的计算策略对于不同问题的有效性有显著差异。我们应如何评估并选择最适合当前问题的测试时计算策略?这种策略与仅仅使用一个更大的预训练模型相比,效果如何?

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

DeepMind研究团队探究了两种主要机制来扩展测试时的计算。

一种是针对基于过程的密集验证器奖励模型(PRM)进行搜索。

PRM可以在模型生成答案过程中的每个步骤都提供评分,用于引导搜索算法,动态调整搜索策略,通过在生成过程中识别错误或低效的路径,帮助避免在这些路径上浪费计算资源。

另一种方法是在测试时根据prompt自适应地更新模型的响应分布。

模型不是一次性生成最终答案,而是逐步修改和改进它之前生成的答案,按顺序进行修订。

以下是并行采样与顺序修订的比较。并行采样独立生成N个答案,而顺序修订则是每个答案依赖于前一次生成的结果,逐步修订。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

通过对这两种策略的研究,团队发现不同方法的有效性高度依赖于prompt的难度。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

由此,团队提出了“计算最优”扩展策略,根据prompt难度自适应地分配测试时的计算资源。

他们将问题分为五个难度等级并为每个等级选择最佳策略。

如下图左侧,可以看到,在修订场景中,标准的best-of-N方法(生成多个答案后,从中选出最优的一个)与计算最优扩展相比,它们之间的差距逐渐扩大,使得计算最优扩展在使用少4倍的测试计算资源的情况下,能够超越best-of-N方法。

同样在PRM搜索环境中,计算最优扩展在初期相比best-of-N有显著的提升,甚至在一些情况下,以少4倍的计算资源接近或超过best-of-N的表现。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

上图右侧比较了在测试阶段进行计算最优扩展的PaLM 2-S模型与不使用额外测试计算的预训练模型之间的表现,后者是一个*大14倍的预训练模型。

研究人员考虑了在两种模型中都预期会有 tokens的预训练和 tokens的推理。可以看到,在修订场景中(右上),当 << 时,测试阶段的计算通常优于额外的预训练。

然而,随着推理与预训练token比率的增加,在简单问题上测试阶段计算仍然是首选。而在较难的问题上,预训练在这些情况下更为优越,研究人员在PRM搜索场景中也观察到了类似的趋势。

研究还比较了测试时计算与增加预训练的效果,在计算量匹配的情况下,对简单和中等难度的问题,额外的测试时计算通常优于增加预训练。

而对于难度较大的问题,增加预训练计算更为有效。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

总的来说,研究揭示了当前的测试时计算扩展方法可能无法完全替代预训练的扩展,但已显示出在某些情况下的优势。

引发网友热议

这项研究被网友po出来后,引发热议。

有网友甚至表示这解释了OpenAI“草莓”模型的推理方法。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

为什么这么说?

原来就在昨晚半夜,外媒The Information放出消息,爆料OpenAI新模型草莓计划未来两周内发布,推理能力大幅提高,用户输入无需额外的提示词。

草莓没有一味追求Scaling Law,与其它模型的最大区别就是会在回答前进行“思考”。

所以草莓响应需要10-20秒。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

这位网友猜测,草莓可能就是用了类似谷歌DeepMind这项研究的方法(doge):

如果你不认同,给个替代推理方法解释!

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

解释就解释:

本文探讨了 best-of-n 采样和蒙特卡洛树搜索(MCTS)。草莓可能是一种具有特殊tokens(例如回溯、规划等)的混合深度模型。它可能会通过人类数据标注员和来自容易验证领域(如数学/编程)的强化学习进行训练。

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law

论文链接:https://arxiv.org/pdf/2408.03314

参考链接:[1]https://x.com/deedydas/status/1833539735853449360[2]https://x.com/rohanpaul_ai/status/1833648489898594815

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-12 11:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

o1突发内幕曝光?谷歌更早揭示原理 大模型光有软件不存在护城河
发布不到1周,OpenAI最强模型o1的护城河已经没有了。有人发现,谷歌DeepMind一篇发表在8月的论文,揭示原理和o1的工作方式几乎一致。o1突发内幕曝光?谷歌更早揭示原理
2024-09-17 22:51:00
影响英伟达根本逻辑的大争论:OpenAI改变策略意味着什么?谁在撒谎?
大模型预训练“缩放定律”定律失效?模型推理成“解药”,英伟达一家独大格局要变天?“缩放定律”指导下,AI大模型预训练目前遭遇瓶颈。据路透12日报道,硅谷主要AI实验室的新模型训练
2024-11-13 14:09:00
OpenAI 超强 o1 智商超 120 遥遥领先于其他模型:1 小时写出 NASA 博士 1 年代码,最新编程赛超越 99.8% 选手
...成的博士论文代码,竟被 AI 在 1 个小时之内实现了。o1 模型已经强到,能够直出博士论文代码了!来自加州大学欧文分校(UCI)的物理学博士 Kyle Kabasares
2024-09-18 09:49:00
摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练测试
快科技6月14日消息,摩尔线程与全学科教育AI大模型“师者AI”联合宣布,双方已完成大模型训练测试。师者AI基于摩尔线程夸娥(KUAE)千卡智算集群,完成了其70亿参数大模型的高
2024-06-14 11:37:00
思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理
几天前 OpenAI 新模型 o1 的发布,再次引发了人们对大语言模型的高度关注和讨论。而 o1 发布之所以如此“轰动”,是因为它与此前大模型由语言驱动用于聊天或语音助手有本质的
2024-09-20 13:33:00
阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权
出品 | 搜狐科技作者 | 梁昌均编辑 | 杨锦一口气开源8款模型,阿里通义又上新!4月29日一大早,阿里开源发布Qwen3
2025-04-29 16:17:00
360智脑7b参数模型采用3.4万亿tokens训练
...12日消息,360公司日前在GitHub上开源了360智脑7B(70亿参数模型)。360智脑大模型采用3.4万亿Tokens的语料库训练
2024-04-14 01:04:00
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面
2024-09-06 10:01:00
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
大模型领域的技术发展,今天起再次「从 1 开始」了。大语言模型还能向上突破,OpenAI 再次证明了自己的实力。北京时间 9 月 13 日午夜
2024-09-13 16:42:00
更多关于科技的资讯:
零的突破!云知声中标全国首个省级医保大模型项目,打通医保治理现代化“最后一公里”
2026年开年,智慧医保领域迎来里程碑式突破——云知声智能科技股份有限公司成功中标全国首个省级医保垂直大模型项目“江苏省医保垂直大模型及智能体应用项目”
2026-01-24 17:26:00
香港大学中国商业学院2026年专业研究生文凭课程火热招生中
香港大学中国商业学院2026年专业研究生文凭课程全面启动招生!课程涵盖人工智能、创新管理、增长营销、财务金融、人力资源等前沿及核心商管领域
2026-01-24 17:27:00
当哲思遇见科技:华为阅读携手周国平,探讨如何在独处中沉淀自我
在信息纷扰、节奏加速的时代,何处寻得一方宁静,让思想深度扎根?华为阅读联合北京广播电视台纪实科教频道《我们读书吧》第二季
2026-01-24 17:29:00
1月8日,深圳市精锋医疗科技股份有限公司(以下简称精锋医疗)在香港联合交易所主板成功挂牌上市,成为2026年深圳IPO“第一股”
2026-01-24 17:29:00
赋能普惠,引领向善:龙环汇丰实践获公益节大奖肯定
1月22日,第十五届公益节暨2025ESG影响力年会在北京盛大开幕。本届大会以“15年,共益新篇章”为主题,回顾中国公益事业十五年发展历程
2026-01-24 17:30:00
鸿蒙 6“智感握姿” 让交互体验更“近”一步
你是否也经历过这样“手忙脚乱”的时刻:出差途中单手提包,电话突然响起,另一只手紧紧攥着手机,大拇指却怎么也够不到那段长长的滑动接听条
2026-01-24 17:27:00
蚌埠这场脑机接口大会,让“大脑连接未来”照进现实!
大皖新闻讯 1月23日至25日,安徽省脑机接口创新发展大会在蚌埠隆重启幕。为期三天的盛会汇聚了300余位来自高等院校、科研院所
2026-01-24 16:54:00
固体废物综合治理是生态文明建设的重要内容,也是推进美丽中国建设的关键环节。近日,国务院办公厅印发《固体废物综合治理行动计划》
2026-01-24 12:14:00
鲁网1月24日讯国家新一轮消费品以旧换新及数码智能产品购新补贴政策红利持续释放。作为通信行业标杆企业,山东移动济宁分公司积极响应国家号召
2026-01-24 14:00:00
提供16万多方生态空间 设立7亿元资本活水每日商报讯 眼下,“AI漫剧”正加速走入公众视野。作为人工智能时代下中国文化“新三样”(网文
2026-01-24 10:59:00
固安搭建AI智慧招商平台 30秒生成企业选址方案
1月20日,“立业固安”平台工作人员(中)通过平台向企业推荐合适的选址方案。 万 倩摄河北日报讯(记者刘英)30秒,生成一份定制化的选址方案
2026-01-24 08:19:00
近日,杭州德胜快速路(石德立交至明石路段)、秋石快速路(石德立交-石石立交)两项夜景照明提升工程顺利竣工。具体有哪些改变
2026-01-24 09:28:00
距离过年只剩大半个月时间,今年的年货你已经准备好了吗?本周日,100多个AI高手将集结在杭州东站的中国数谷·未来数智港
2026-01-24 10:29:00
来雄安,体验智能弹性绿波带
来雄安,体验智能弹性绿波带主要道路早晚高峰通行缩短15分钟近日,雄安新区容东片区乐民街的数字化道路上,车辆顺畅通行。 河北日报记者 刘光昱摄河北日报讯(见习记者康晓博)从雄安新区工信科技数据局获悉
2026-01-24 08:27:00
太重集团1月21日发布消息,太重首批32米纯电直臂式高空作业平台顺利批量下线,这不仅是太重高空作业平台产品型谱的重要补位
2026-01-24 07:17:00