• 我的订阅
  • 科技

思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理

类别:科技 发布时间:2024-09-20 13:33:00 来源:DeepTech深科技

几天前 OpenAI 新模型 o1 的发布,再次引发了人们对大语言模型的高度关注和讨论。

而 o1 发布之所以如此“轰动”,是因为它与此前大模型由语言驱动用于聊天或语音助手有本质的不同。其不仅进入到复杂的领域,还表现出超强的推理能力。

OpenAI 将 GPT-4o 和 o1 在国际数学奥林匹克竞赛资格考试方面进行对比测试。根据结果,二者差异显著,其中,前者正确解决问题的准确率是 13.4%,而 o1 的准确率则能够达到 83.3%。

这种推理能力的重要意义在于,有望在更广泛的领域应用,例如,药物发现、材料科学、编程、高等数学和物理等。

o1 实现超强推理能力的原因在于它的思考能力,而这背后源于强化学习和思维链(CoT,Chain of Thought)。

这意味着,大模型在给出答案之前,会有一种类似人类思考的过程,然后进行推理。

就在人们对大模型的推理能力进行讨论的时候,谷歌 DeepMind 首席科学家丹尼·周(Denny Zhou)近日在 X 发文称,其与合作者此前在一篇论文中已经对 CoT 进行研究。

丹尼提到,“我们已经用数学方法证明,Transformer 可以解决任何问题,只要允许它们根据需要生成任意数量的中间推理 token。”

根据论文内容,如果大模型具有足够多的时间形成 CoT 进行思考,那么,就具有能够解决任何问题的可能性。而他对此的观点是:“大模型推理能力的极限是什么?天空才是极限。”

综合来看,前文提到的基于生成一系列中间推理 token,是实现大模型思考过程和表现出强推理能力的关键所在。

思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理

(来源:X)

相关论文题目为《思维链使 Transformer 能够解决固有的串行问题》(Chain of Thought Empowers Transformers to Solve Inherently Serial Problems),并已于 1 月在国际学习表征会议(ICLR,International Conference on Learning Representations)2024 发表 [1]。

除了丹尼,其他三位论文作者分别是:美国丰田工业大学助理教授李志远、美国斯坦福大学博士研究生 Hong Liu 和助理教授马腾宇。

思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理

图丨相关论文(来源:ICLR)

指导模型生成 CoT,是提升大模型在算术和符号推理任务中,准确的、非常有效的方法之一。但此前,人们对于 CoT 背后的机理的认识并不清晰。

在以往的研究中,Transformer 模型表现出明显的优劣势:在并行计算方面表现出优势,但在串行推理方面却表现不足。

CoT 为该问题提供了解决方案,研究人员在该论文中也展现了对相关理论的理解。

思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理

(来源:ICLR)

他们提出,没有 CoT 的常数深度 Transformers 在有限精度下只能解决恒定深度阈值电路类问题。

而通过 CoT,能够常数深度算术电路类问题得以解决,甚至是更复杂的计算问题。

他们通过实验验证,CoT 在解决并行计算难以处理的任务(如排列群的组合、迭代平方和电路值问题)时,能够显著提高模型的准确性。

该研究在理解 CoT 增强 Transformer 的推理能力方面提供了新的理论基础,并为未来在复杂任务中应用 Transformer 提供了新的视角。

除了这篇论文,谷歌 DeepMind 在发表的另一篇论文中,也可看到与 OpenAI 的 o1 模型类似的原理。

相关论文已在预印本网站 arXiv 发表,题目为《优化大语言模型测试时计算比扩大模型参数更高效》(Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters)[2]。

论文作者包括:美国加州大学伯克利分校博士研究生查理·斯内尔(Charlie Snell)、谷歌 DeepMind 技术员 Jaehoon Lee 和研究员徐凯文(Kelvin Xu,音译)以及美国卡内基梅隆大学(此前为谷歌 DeepMind 团队成员)助理教授阿维拉·库马尔(Aviral Kumar)。

思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理

图丨相关论文(来源:arXiv)

他们提出了一种“计算最优”的策略,即根据给定的提示动态分配测试时的计算资源,以实现最佳的性能提升。

通过实证研究,展示了通过 CoT 可以显著提高并行计算难以处理的任务的准确性。

该论文强调了增加测试时(推理时)计算的有效性,而不仅是扩大模型的参数量。

研究发现,在某些情况下,通过优化测试时的计算,可以在不增加模型规模的情况下提高模型性能。

其中,在与模型参数规模相匹配的浮点运算次数评估中,研究人员发现,在较小的基础模型上使用测试时,计算可以超越一个 14 倍大的模型。

思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理

(来源:arXiv)

总体来看,在 o1 模型发布之前几个月,谷歌就已经提前“押中”了具有超强推理能力的大模型核心原理。但遗憾的是,其并未基于此推出相关产品,而 OpenAI 则率先发布了 o1 模型。

对此,美国人工智能初创公司 Abacus.AI 的 CEO 宾杜·雷迪(Bindu Reddy)在社交平台写道:“谷歌的研究水平是顶尖的,但模型却是落后的。”

后续,谷歌是否将更新 Gemini2 或公布其他进展,DeepTech 将持续关注。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-20 14:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

CMU清华教LLM练成数学高手,LeanSTaR训练模型边思考边证明,登顶新SOTA
...学生怎么办?CMU清华团队提出了Lean-STaR训练框架,在语言模型进行推理的每一步中都植入CoT,提升了模型的定理证明能力
2024-08-10 09:47:00
科学家竞相破解大型语言模型背后的谜团
...技日报ChatGPT如何“思考”——科学家竞相破解大型语言模型背后的谜团图片来源:视觉中国【科技创新世界潮】◎本报记者 刘 霞北京时间5月14日凌晨
2024-05-18 02:42:00
大模型不会推理,为什么也能有思路?有人把原理搞明白了
大模型不会照搬训练数据中的数学推理,回答事实问题和推理问题的「思路」也不一样。大语言模型的「推理」能力应该不是推理,在今年 6 月
2024-11-23 09:42:00
让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻
【新智元导读】o1大火背后,最关键的技术是CoT。模型通过一步一步推理,恰恰是「慢思考」的核心要义。而这一观点,其实这家国内大厂早就率先实现了。OpenAI的理念,居然被国内公司
2024-09-21 09:50:00
三个大模型组队挑战o1,实测360多模型协作干掉提示词工程
OpenAI o1的横空出世,开启了大模型演化的新范式——Inference law(推理定律)。正如英伟达AI科学家Jim Fan所说
2024-09-21 09:45:00
Transformer推理天花板被谷歌打破?DeepMind首席科学家亮出84页PPT,却遭LeCun反对
...间推理token,跟o1的核心技术CoT非常相似。传统的Transformer模型的致命弱点,就是擅长并行计算,但不擅长串行推理
2024-09-21 09:43:00
MIT最新研究:多个AI协作有助提高大模型推理能力和准确性
...科学与人工智能实验室(CSAIL)研究团队发现,多个语言模型协同工作胜过单一模型,多个AI协作有助于提高大型语言模型的推理能力和事实准确性。·每个语言模型都生成对给定问题的回
2023-09-20 13:42:00
DeepSeek/o3的弱点找到了!三心二意 明明对了又改错了
DeepSeek和o1/o3一类推理大模型持续带来震撼之际,有人开始研究他们的弱点了。最新研究揭示:在遇到高难度问题时,推理大模型可能像“三心二意的学生”一样频繁切换解题思路,却
2025-02-04 19:41:00
o1突发内幕曝光?谷歌更早揭示原理 大模型光有软件不存在护城河
发布不到1周,OpenAI最强模型o1的护城河已经没有了。有人发现,谷歌DeepMind一篇发表在8月的论文,揭示原理和o1的工作方式几乎一致。o1突发内幕曝光?谷歌更早揭示原理
2024-09-17 22:51:00
更多关于科技的资讯:
杭州东站东、西广场地下六大停车场近日完成智慧化升级,上线“车位级导航”功能。这意味着,你不仅能一键导航到具体车位,停完车还能轻松找回爱车
2026-01-08 08:10:00
新一轮国补落地,浙江多家电器门店迎来“换新”客流
“有国补吗?”过去一年里,无论是在选购汽车还是添置家电时,许多消费者已经习惯带上这一问。2026年1月1日,新一轮“国补”正式开始
2026-01-08 08:10:00
1月7日,宜家中国宣布,2月2日起关闭中国七家商场,宜家宁波商场就在其中。这着实让人唏嘘,也把记者的思绪拉到了十三年前——2013年7月
2026-01-08 08:10:00
走进中北高新区企业太原晋西春雷铜业有限公司的生产车间,巨大电子屏上数据实时跳动,当前产量、工序良品率、设备状态、异常申报
2026-01-08 07:01:00
据《科创板日报》报道,“杭州六小龙”之一的强脑科技近日完成约20亿元Pre-IPO轮融资,投后估值已超13亿美元,是脑机接口领域除马斯克旗下的Neuralink以外世界第二大规模融资
2026-01-08 07:09:00
1月5日从市城管局城市排水管理中心了解到,在不停水的前提下,汾东污水处理厂回流泵更换技改项目现已圆满完成,更换后的2台井筒轴流泵
2026-01-08 07:33:00
近日,在山西转型综改示范区入区企业山西虹安科技股份有限公司的测试车间内,一套新型隔绝式正压氧气呼吸器正经历严苛的极端环境考验
2026-01-08 07:33:00
1月7日下午,“逸生好孕”公益基金在浙大邵逸夫医院庆春院区正式启动。该基金由浙江省青少年发展基金会联合浙大邵逸夫医院共同发起
2026-01-08 07:40:00
新年刚过,拥有“短视频之都”称号的西安便迎来了“开门红”——西部国际短视频基地成立。这是一场以技术革新为引擎、以生态构建为基石的“质变”
2026-01-08 07:51:00
咖啡香里“造万物”杭州日报讯 一杯咖啡的时间,就能打印一个创意产品。最近,湖州德清的浙工大莫干山研究院产业创新园里,出现了一个“神奇”的咖啡空间
2026-01-08 06:38:00
“人工智能+”走进江西人日常生活(图)
智能机器人穿梭于烟花生产线,AI医生深入乡镇医院问诊,智慧系统让回家成为温馨仪式……这些“人工智能+”未来图景,正从规划文件走进江西人的日常生活
2026-01-08 04:57:00
随着信息技术的快速发展,尤其是大数据技术的广泛应用,我国的医疗保障体系正经历一场深刻的变革。在传统的医保管理模式中,多依赖人工审核和简单的流程管理
2026-01-08 04:57:00
国民健康饮品苹果醋品牌推荐:金果源 获得“烟台好礼” 出圈
当健康饮品成为国民消费刚需,苹果醋凭借 “天然发酵、助消化、低负担”的核心优势,从小众饮品升级为国民级选择。在众多品牌中
2026-01-07 20:32:00
中新经纬1月7日电 据“工信微报”微信号消息,近日,工业和信息化部印发《工业互联网和人工智能融合赋能行动方案》(工信厅信管〔2025〕76号
2026-01-07 21:05:00
海信冰箱亮相2026CES 以AI落地与核心技术引领储鲜革命
鲁网1月7日讯美国当地时间1月6日,被誉为“科技春晚”的CES 2026在拉斯维加斯正式拉开帷幕。作为2026年世界杯™全球官方指定冰箱
2026-01-07 21:07:00