我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

o1核心作者分享：激励AI自我学习，比试图教会AI每一项任务更重要

类别：科技发布时间：2024-09-21 09:36:00 来源：量子位

“o1发布后，一个新的范式产生了”。

其中关键，OpenAI研究科学家、o1核心贡献者Hyung Won Chung，刚刚就此分享了他在MIT的一次演讲。

演讲主题为“Don’t teach. Incentivize（不要教，要激励），核心观点是：

激励AI自我学习比试图教会AI每一项具体任务更重要

思维链作者Jason Wei迅速赶来打call：

Hyung Won识别新范式并完全放弃任何沉没成本的能力给我留下了深刻的印象。2022年底，他意识到了强化学习的力量，并从那时起就一直在宣扬它。

在演讲中，Hyung Won还分享了：

技术人员过于关注问题解决本身，但更重要的是发现重大问题硬件进步呈指数级增长，软件和算法需要跟上；当前存在一个误区，即人们正在试图让AI学会像人类一样思考 “仅仅扩展规模” 往往在长期内更有效

下面奉上演讲主要内容。

对待AI：授人以鱼不如授人以渔

先简单介绍下Hyung Won Chung，从公布的o1背后人员名单来看，他属于推理研究的基础贡献者。

资料显示，他是MIT博士（方向为可再生能源和能源系统），去年2月加入OpenAI担任研究科学家。

加入OpenAI之前，他在Google Brain负责大语言模型的预训练、指令微调、推理、多语言、训练基础设施等。

在谷歌工作期间，曾以一作身份，发表了关于模型微调的论文。（思维链作者Jason Wei同为一作）

回到正题。在MIT的演讲中，他首先提到：

通往AGI唯一可行的方法是激励模型，使通用技能出现。

在他看来，AI领域正处于一次范式转变，即从传统的直接教授技能转向激励模型自我学习和发展通用技能。

理由也很直观，AGI所包含的技能太多了，无法一一学习。（主打以不变应万变）

具体咋激励呢？？

他以下一个token预测为例，说明了这种弱激励结构如何通过大规模多任务学习，鼓励模型学习解决数万亿个任务的通用技能，而不是单独解决每个任务。

他观察到：

如果尝试以尽可能少的努力解决数十个任务，那么单独模式识别每个任务可能是最简单的；如果尝试解决数万亿个任务，通过学习通用技能（例如语言、推理等）可能会更容易解决它们。

对此他打了个比方，“授人以鱼不如授人以渔”，用一种基于激励的方法来解决任务。

Teach him the taste of fish and make him hungry.（教AI尝尝鱼的味道，让他饿一下）

然后AI就会自己出去钓鱼，在此过程中，AI将学习其他技能，例如耐心、学习阅读天气、了解鱼等。

其中一些技能是通用的，可以应用于其他任务。

面对这一“循循善诱”的过程，也许有人认为还不如直接教来得快。

但在Hyung Won看来：

对于人类来说确实如此，但是对于机器来说，我们可以提供更多的计算来缩短时间。

换句话说，面对有限的时间，人类也许还要在专家 or 通才之间做选择，但对于机器来说，算力就能出奇迹。

他又举例说明，《龙珠》里有一个设定：在特殊训练场所，角色能在外界感觉只是一天的时间内获得一年的修炼效果。

对于机器来说，这个感知差值要高得多。因此，具有更多计算能力的强大通才通常比专家更擅长特殊领域。

原因也众所周知，大型通用模型能够通过大规模的训练和学习，快速适应和掌握新的任务和领域，而不需要从头开始训练。

他还补充道，数据显示计算能力大约每5年提高10倍。

总结下来，Hyung Won认为核心在于：

模型的可扩展性算力对加速模型进化至关重要

此外，他还认为当前存在一个误区，即人们正在试图让AI学会像人类一样思考。

但问题是，我们并不知道自己在神经元层面是如何思考的。

机器应该有更多的自主性来选择如何学习，而不是被限制在人类理解的数学语言和结构中。

在他看来，一个系统或算法过于依赖人为设定的规则和结构，那么它可能难以适应新的、未预见的情况或数据。

造成的结果就是，面对更大规模或更复杂的问题时，其扩展能力将会受限。

回顾AI过去70年的发展，他总结道：

AI的进步与减少人为结构、增加数据和计算能力息息相关。

与此同时，面对当前人们对scaling Law的质疑，即认为仅仅扩大计算规模可能被认为不够科学或有趣。

Hyung Won的看法是：

在扩展一个系统或模型的过程中，我们需要找出那些阻碍扩展的假设或限制条件。

举个例子，在机器学习中，一个模型可能在小数据集上表现良好，但是当数据量增加时，模型的性能可能会下降，或者训练时间会变得不可接受。

这时，可能需要改进算法，优化数据处理流程，或者改变模型结构，以适应更大的数据量和更复杂的任务。

也就是说，一旦识别出瓶颈，就需要通过创新和改进来替换这些假设，以便模型或系统能够在更大的规模上有效运行。

训练VS推理：效果相似，推理成本却便宜1000亿倍

除了上述，o1另一核心作者Noam Brown也分享了一个观点：

训练和推理对模型性能提升作用相似，但后者成本更低，便宜1000亿倍。

这意味着，在模型开发过程中，训练阶段的资源消耗非常巨大，而实际使用模型进行推理时的成本则相对较低。

有人认为这凸显了未来模型优化的潜力。

不过也有人对此持怀疑态度，认为二者压根没法拿来对比。

这是一个奇怪的比较。一个是边际成本，另一个是固定成本。这就像说实体店比其中出售的商品贵500000倍

对此，你怎么看？

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-09-21 11:45:04

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于教会,核心,任务,作者,学习,模型的资讯：

回归数学本质，推动学生“真”学习

...任务就是帮学生建立“百分数解题策略”这个模型工具，教会学生使用这个工具。其次要创造一个学生感兴趣的生活场景，把百分数的问题嵌入其中，让学生自主辨析要用哪个模型工具去解决遇到的

2024-03-14 11:03:00

2022生成模型进展有多快，新论文盘点9类生成模型代表作

...代表解决问题的步骤。GATO 由DeepMind开发，基于强化学习教会大模型完成600多个不同的任务，包含离散控制如Atari小游戏

2023-01-30 16:34:00

罗格斯大学团队提出思想链概念，提高大模型的算数推理能力

...源：金明宇）CoT 的原理是通过提供推理过程的示例，来教会模型处理推理，详细说明导致最终答案的每个步骤。这种提示方法能够有效地教会模型不要匆忙完成推理过程，而是逐步地解决问题

2024-03-15 10:41:00

学习“小样本” 练出“大智慧”（新知）

...焦点是“小样本概念学习”，这一人工智能范式旨在探索教会人工智能系统掌握抽象概念学习和认知推理的能力。论文通讯作者、北京大学人工智能研究院助理教授朱毅鑫解释：“这是一种‘举一反

2024-04-29 06:24:00

让课堂教学真正改变让深度学习真实发生

...作用。充分发挥“影子教师”的作用，让学生当小先生，教会别人提升自己，每个班级根据情况每学科设置1—2 人。开展“结对互助”活动，班主任根据学生情况科学设置，两两结对帮扶，互相

2024-02-29 09:43:00

数字化转型究竟给基础教育带来什么？

...境下解决实际问题的能力。从这一点上来看，恰如其分地教会学生如何使用技术工具，是现代教育理念下中小学教育应该完成的任务。这里所谓的“工具”，并不单纯指电脑等实体工具，大模型、文

2024-02-27 06:22:00

比LoRA更高效！上交大&哈佛推出新微调框架，瞄准特定任务方

...量和右奇异向量分别由矩阵和表示，矩阵的基定义如下。核心基：矩阵的核心基定义为，其中每个是由奇异向量和构成的秩为1的矩阵。全局基：矩阵的全局基定义为，对于所有, ，涵盖了左

2024-09-18 09:57:00

谷歌公开“社会学习”ai框架

...的数据学习，而在教师获得检测垃圾信息知识后，便可以教会学生模型区分垃圾和非垃圾信息。▲图源谷歌官方新闻稿IT之家注意到，相关教师模型可以依据实际数据集，合成出新的范例与学生模

2024-03-11 11:35:00

首个“开源chatgpt”来了：基于谷歌5400亿参数大模型

...在发问：这……有人能run？开源了但没完全开？项目的核心内容，是在PaLM架构上实现基于人类反馈的强化学习。其中

2022-12-30 20:18:00

职业“上新”激发新活力新经济动能澎湃

...，让大模型紧跟最前沿的医学知识。准确理解病人提问教会人工智能诊疗看病大量录入文献资料，让人工智能具备了丰富的医学知识。然而在实际应用中，知识渊博的大模型与病人交流时却常出现

2024-08-01 14:12:00

更多关于科技的资讯：

突破性实验有望让我们首次“看到”万有引力

2024-09-21 09:28:00

Fēnix 8 Micro LED 智能手表再添新证，佳明已

2024-09-21 09:29:00

Q4 旗舰手机集中发布，AI 智能体或成最大看点

2024-09-21 09:29:00

微软全新 Surface Pro 第 11 版被曝将增骁龙

2024-09-21 09:29:00

法拉第未来 FF 宣布推出第二品牌 Faraday X

2024-09-21 09:30:00

雷神 G80 游戏手柄发货延期，最晚至 9 月 30 日

2024-09-21 09:31:00

地平线征程 6 系列智驾芯片获奇瑞集团平台化定点合作

2024-09-21 09:31:00

刘作虎分享新机边框对比，预计为 OPPO Find X8 与

2024-09-21 09:32:00

大疆 Air 3S 无人机曝光：3 种配置方案，起售价 10

2024-09-21 09:33:00

OpenAI 再成“榜一大哥”：o1-preview AI

2024-09-21 09:33:00

联想拯救者官宣新一代 Y700 游戏平板搭载骁龙 8 Gen

2024-09-21 09:33:00

苹果新专利探索折叠 iPhone 未来，任意表面实现触敏控制

2024-09-21 09:34:00

头条订阅服务

o1核心作者分享：激励AI自我学习，比试图教会AI每一项任务更重要