• 我的订阅
  • 科技

大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了

类别:科技 发布时间:2024-10-23 12:05:00 来源:机器之心Pro

最近一段时间,随着 OpenAI o1 模型的推出,关于大型语言模型是否拥有推理能力的讨论又多了起来。比如苹果在前段时间的一篇论文中指出,只要给模型一些干扰,最聪明的模型也会犯最简单的错误(参见《给小学数学题加句「废话」,OpenAI o1 就翻车了,苹果新论文质疑 AI 推理能力》)。这种现象被归结为「当前的 LLM 无法进行真正的逻辑推理;相反,它们试图复制在训练数据中观察到的推理步骤」。然而,事实真的是这样吗?谷歌 DeepMind 的一篇论文似乎得出了相反的结论。

最近,DeepMind 今年 2 月份的一篇论文在社交媒体上掀起了一些波澜。

大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了

关于该论文的早期报道。

这篇论文题为「Grandmaster-Level Chess Without Search」。文中介绍说,DeepMind 的研究者训练了一个参数量为 2.7 亿的 Transformer 模型,这个模型无需依赖复杂的搜索算法或启发式算法就能达到「特级大师( Grandmaster-Level )」的国际象棋水平,优于 AlphaZero 的策略和价值网络(不含 MCTS)以及 GPT-3.5-turbo-instruct 模型。

这一结果非常有趣,也很容易激发想象力,因为到目前为止,能达到这个级别的计算机国际象棋系统 —— 无论是否基于机器学习 —— 都使用了搜索组件。而DeepMind 模型不依赖搜索似乎就能达到如此强大的下棋水平。

很多人将其解读为:这表明 Transformer 不是简单的「随机鹦鹉」,而是具有一定的推理和规划能力。就连该论文的作者也在「结论」部分写道:「我们的工作为快速增长的文献增添了新的内容,这些文献表明,复杂而精密的算法可以被蒸馏为前馈 transformer,这意味着一种范式的转变,即从将大型 transformer 视为单纯的统计模式识别器,转变为将其视为通用算法近似的强大技术。」

大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了

不过,这种解读也引来了一些争议。比如,Meta FAIR 研究科学家主任田渊栋指出,论文采用的评估方法 ——「blitz」可能存在一些局限。「blitz」字面意思是闪电战,在国际象棋中指超快棋。在这种棋赛中,对局每方仅有几分钟的时间思考,玩家往往依赖直觉而非深入的搜索和解决问题的能力。此外,模型与机器人对弈时的分数比与人类对弈时的分数要低。田渊栋认为这可能是因为人类在有限的时间内可能没有机器人那么擅长发现战术上的失误。所以,这种比赛可能并不足以用来测试模型是否拥有推理能力。

大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了

一向喜欢唱反调的纽约大学教授 Gary Marcus 这次也没有缺席,他也认为论文的结论被夸大了,模型的泛化能力存在严重问题。

大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了

其实,在今年 2 月份论文刚出来的时候,就有一些研究者写过关于该论文的质疑文章,有兴趣的读者可以点开阅读。

大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了

博客链接:https://arjunpanickssery.substack.com/p/skepticism-about-deepminds-grandmaster

大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了

博客链接:https://gist.github.com/yoavg/8b98bbd70eb187cf1852b3485b8cda4f#user-content-fnref-3-b6ec0872d32c5df9324eccad8269953b

论文概览

人工智能最具标志性的成功之一是 IBM 的深蓝(Deep Blue)在 1997 年击败了国际象棋冠军 Garry Kasparov。人们普遍认为,这证明了机器能够在需要复杂理性推理和战略规划的智力领域中超越人类 —— 而这些智力领域一直被认为只有人类才能涉足。

深蓝是一个专家系统,它结合了广泛的象棋知识和启发式规则以及强大的树搜索算法(alpha-beta 剪枝)。几乎所有当代且更强大的象棋引擎都遵循类似的模式,目前世界上最强大的(公开可用的)引擎是 Stockfish 16。

值得注意的例外是 DeepMind 的 AlphaZero,以及它的开源复制品 Leela Chess Zero(它目前在象棋电脑比赛中经常排名第二),它们使用搜索和自学的启发式规则,但不依赖人类的象棋知识。

最近,人工智能系统在扩展方面取得了突破性进展,这使其在认知领域取得了巨大进步,而这些领域对于像「深蓝」这样的早期系统来说仍然具有挑战性。推动这一进步的是通用技术,特别是在专家数据上进行(自)监督训练,并大规模应用基于注意力的架构。在此过程中,研究者们开发出了具有令人印象深刻的认知能力的 LLM,如 OpenAI 的 GPT 系列、LLaMA 模型系列或谷歌 DeepMind 的 Chinchilla 和 Gemini。

然而,目前还不清楚同样的技术是否适用于国际象棋这样的领域,因为在这一领域,成功的策略通常依赖于复杂的算法推理(搜索、动态规划)和复杂的启发式规则。因此,本文的主要问题是:是否有可能利用监督学习来获得一种国际象棋策略,这种策略能很好地泛化到新棋局,而不需要显式搜索?

为了研究这一问题,作者将大规模通用监督训练的成功秘诀应用于国际象棋(见图 1)。

大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了

作者使用基于注意力的标准架构和标准监督训练协议来学习预测棋盘的动作 - 值(action-value,对应胜率)。因此,由此产生的国际象棋策略的强度完全取决于底层行动值预测器的强度。

为了获得大量「真实」动作 - 值的数据库,作者使用 Stockfish 16 作为预言机,对数百万个棋盘状态进行注释,这些棋盘状态来自 lichess.org 上随机抽取的人类对弈棋局。正如论文中展示的那样,这将产生一个强大的特级大师级国际象棋策略(在 Lichess 平台上的闪击战中,该模型对阵人类玩家的 Elo 评分为 2895 分)。该策略由一个当代 transformer 驱动,无需任何显式搜索即可预测动作 - 值。该策略优于 GPT-3.5- turbo-instruct(也优于 GPT-4)和 AlphaZero 的策略和价值网络,后者的 Elo 评分分别为 1755、1620 和 1853。

因此,这项工作表明,通过标准监督学习,有可能在足够大的规模上将 Stockfish 16 的良好近似值蒸馏到前馈神经网络中 —— 正如 1921 年至 1927 年国际象棋世界冠军 José Raúl Capablanca 所言:「我只看到前面的一步棋,但它总是正确的一步」。

大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了

论文地址:https://arxiv.org/pdf/2402.04494

方法介绍

数据。为了构建数据集,作者从 2023 年 2 月开始在 Lichess (lichess.org) 下载了 1000 万场游戏。并从这些游戏中提取所有棋盘状态 s,并使用 Stockfish 16 估计每个状态的状态值,时间限制为每局 50 毫秒。

方法。对于预测器,作者使用仅有解码器的 transformer 作为主干来参数化离散概率分布,并对 transformer 的输出应用 log-softmax 层进行归一化。因此,模型输出对数概率。

在动作 - 值预测中,上下文大小为 79,而在状态 - 值预测和行为克隆中,上下文大小为 78。对于动作和状态 - 值预测,输出大小为 ,对于行为克隆,输出大小为 1968(所有可能合法动作的数量)。之后作者使用学习到的位置编码,从而保持输入序列的长度是恒定的。最大的模型大约有 2.7 亿个参数。

Token 化。棋盘状态被编码为 FEN 字符串,作者将其转换为固定长度为 77 个字符的字符串,其中每个字符的 ASCII 码即为一个 token。FEN 字符串描述了棋盘上所有棋子的位置、当前轮到哪方、双方玩家的易位、半步计时器和全步计数器。

作者采用 FEN 字符串中任何可变长度的字段,在必要时用填充的方法,将其转换为固定长度的子字符串。对于动作,作者以 UCI 表示法存储动作。为了对其进行 Token 化,作者确定了所有可能的合法动作总共有 1968 个,按字母数字顺序(区分大小写)排序,并取动作的索引作为 token,这意味着动作是由单一 token 描述的。

预测器协议

预测器是离散分布的,根据预测目标,作者将任务分成三类(参见上图 1):动作 - 值预测 (AV, Action-value ) 、 状态 - 值预测 (SV, State-value ) 以及行为克隆 (BC, Behavioral cloning )。

基准

作者将本方法与 Stockfish 16、AlphaZero 的三种变体进行了比较,但并没有和 GPT-4 进行比较,因为他们发现 GPT-4 很难在不做出非法动作的情况下玩完整个游戏。

实验结果

表 1 主要评估了具有 9M、136M 和 270M 参数的三个 Transformer 模型。结果表明,这三个模型都表现出对新棋盘的非凡泛化能力,并且可以成功解决大部分谜题。

在所有指标中,拥有更大的模型可以持续提高得分,这证实了模型规模对于国际象棋表现至关重要。最大的模型在与人类玩家的比赛中取得了 2895 Elo,达到大师级别。

大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了

图 2 中作者将 270M 参数模型与 Stockfish 16、GPT-3.5-turbo-instruct 和 AlphaZero 价值网络的性能进行了比较。实验中使用了 10k 个谜题的大型谜题集进行实验。

Stockfish 16 在所有难度类别中表现最佳,其次是本文的 270M 模型。

作者强调,解决谜题需要正确的移动顺序,并且由于本文的策略无法明确提前规划,因此解决谜题序列完全依赖于良好的值估计。

大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了

图 3 展示了对数据集和模型大小进行扩展的分析。

对于较小的训练集大小(10k 个游戏),较大的架构(≥ 7M)随着训练的进行开始过度拟合。

当数据集大小增加到 100k 和 1M 场游戏时,这种影响会消失。

结果还表明,随着数据集大小的增加,模型的最终准确率会提高(在模型大小之间保持一致)。同样,作者观察到架构大小增加的总体趋势是无论数据集大小如何,整体性能都会提高。

大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了

通过下表 2 可以得出以下几点:

动作 - 值预测器在动作排名、动作准确率和谜题准确率方面更胜一筹。

模型的性能随着深度的增加而增加,但似乎在 8 层左右达到饱和,这表明深度很重要,但不能超过某个点。

大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-23 15:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
...到,人类大脑生成和解析语言的神经网络并不负责形式化推理,而且提出推理并不需要语言作为媒介。这篇论文声称「语言主要是用于交流的工具,而不是思考的工具,对于任何经过测试的思维形式
2024-06-25 09:45:00
ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类推理
...M) 是如何解数学题的?是通过模板记忆,还是真的学会了推理思维?模型的心算过程是怎样的?能学会怎样的推理技能?与人类相同,还是超越了人类?只学一种类型的数学题,是会对通用智能
2024-08-06 09:27:00
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
苹果新论文:AI 大模型可能不会推理。AI 大模型(LLM)真的像我们理解的那样能「思考」或「推理」吗?最近,苹果的一篇论文探讨了这个问题,并且给出了一个倾向于「否」的答案。相关
2024-10-14 09:55:00
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...很多不同的GPU型号和显存大小。再加上,目前广泛应用于推理阶段的量化技术,比如可以用FP16或FP8精度,这会改变推理和训练/微调成本的比重。以上这些限制因素,都让模型规模的
2024-07-29 09:33:00
思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理
...本质的不同。其不仅进入到复杂的领域,还表现出超强的推理能力。OpenAI 将 GPT-4o 和 o1 在国际数学奥林匹克竞赛资格考试方面进行对比测试
2024-09-20 13:33:00
Transformer推理天花板被谷歌打破?DeepMind首席科学家亮出84页PPT,却遭LeCun反对
...科学家Denny Zhou拿出一篇ICLR 2024论文称:CoT可以让Transformer推理无极限。但随即他就遭到了田渊栋和LeCun等的质疑
2024-09-21 09:43:00
百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法
...-7b等小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力,使模型性能迎来惊人提升。自OpenAI的Q*项目曝光后
2024-06-26 09:19:00
港中文团队提出大模型元推理范式,革新大模型的评价体系
...一定启示。日前,相关论文以《大型语言模型评价中的元推理革命》(MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation)为题发在 arXiv
2024-03-04 10:23:00
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...ta 提出“可持续思维链”:让大语言模型在连续潜空间中推理GameArena:通过实时电脑游戏评估 LLM 推理想要第一时间获取每日最新大模型热门论文
2024-12-13 09:19:00
更多关于科技的资讯:
鲁网1月19日讯近日,国家水利部正式发布《节水先进成熟适用技术设备名录(2025年)》。在此次国家级节水技术评选中,泰安市科技创新成果“双星闪耀”——东平力创科技有限公司与泰安市智慧能源科技有限公司的领先技术成功入选
2026-01-19 11:06:00
“智改数转”激活新动能 固安制造业向“新”力十足
河北新闻网讯(万倩、臧子祺、韩佳臻)近日,在固安县萨牌智能驱动技术(河北)有限公司的测试车间里,一台智能叉车正静默而精准地执行着指令
2026-01-19 11:06:00
光储直柔一体机亮相武汉工商学院
荆楚网(湖北日报网)讯(记者唐天琪 通讯员王蕾、蓝静)1月16日,一台可实现电力能源“自产、自储、自用、自调”的光储直柔一体机在武汉工商学院正式亮相
2026-01-19 12:01:00
江南时报讯 近日,苏州横扇中新智地产业园区1138KWp分布式光伏项目顺利并网发电。从方案落地到设备投运,吴江横扇供电所以“靠前对接
2026-01-19 13:05:00
重庆钢铁成功取得CRCC认证,正式进入铁路耐候钢市场
近日,重庆钢铁铁标耐候钢产品顺利通过中铁检验认证中心(CRCC)权威认证,标志着公司在该产品质量管理体系与实物质量上全面契合铁路行业严苛标准
2026-01-19 14:00:00
携手商家共拓增长新空间助力线下消费,抖音生活服务城市生态大会济南站启幕
鲁网1月19日讯1月16日,“域见美好生活·这一站济南”2026抖音生活服务城市生态大会暨北部大区年度盛典在济南召开。大会由山东省文化和旅游厅
2026-01-19 11:40:00
京东联合五大服饰品牌发布2025超级面料消费观察
你是否曾设想,一件衣物也能如“智能空调”般自动调节温度?你是否曾设想,穿过的羽绒服无需刻意清洗?你是否曾设想,冬日的保暖衣物能够自主发热
2026-01-19 11:07:00
潍坊国补正式落地,三联家电41周年店庆点燃消费热情
鲁网1月19日讯1月17日上午,潍坊市奎文区2026年家电以旧换新暨海尔年货节、三联家电41周年店庆启动仪式在三联家电东风店户外广场隆重举行
2026-01-19 11:03:00
沧州7130家企业设立首席质量官
1月13日,在沧州四星玻璃股份有限公司生产车间内,首席质量官宋小龙(左)查看自动化制瓶生产线运行情况。河北日报记者 王雅楠摄河北日报讯(记者王雅楠)沧州市大力推行企业首席质量官制度
2026-01-19 08:10:00
1月12日,在位于张家口冰雪运动装备产业园的河北米锐特气模制造有限公司厂房内,30米长的不锈钢操作台上,工人正精准划线
2026-01-19 08:14:00
中新经纬1月18日电 18日,“人民日报评论”微信号发布评论文章《人民日报评西贝关店事件:网络舆论环境不能成为企业发展的短板》
2026-01-19 08:22:00
近期,富德生命人寿枣强支公司推出一系列针对性服务举措,通过优化传统服务方式与提升智能服务便利性双管齐下,切实提升老年客户群体的金融服务体验
2026-01-19 09:33:00
近期,国家有关部门在全国范围内持续推进“AI魔改”视频专项治理行动,相关话题引发广泛关注。随着整治深入,社会讨论正从对乱象本身的集中批评
2026-01-19 10:00:00
凤凰花实验室成立 厦门发力“人工智能赋能千行百业”
凤凰花实验室启动活动现场。(集美区 供图)厦门网讯(厦门日报记者 应洁)1月17日9时许,诚毅国际商务中心直达顶楼的电梯比工作日还要繁忙
2026-01-19 08:22:00
一块小小的豆腐能蕴含多少科技力量?昨天,在杭州豆制食品有限公司2026年商业大会暨新品发布会上,“鸿光浪花”品牌发布了首款富硒豆腐
2026-01-19 07:15:00