• 我的订阅
  • 科技

o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开

类别:科技 发布时间:2024-09-23 09:50:00 来源:新智元

o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开

【新智元导读】o1诞生,对于OpenAI团队来说,是最具革命性的时刻。在22分钟完整版采访视频中,他们分享了自己对新模型的思考,以及背后的开发故事。

OpenAI o1团队采访的完整版视频,终于上线了!

全程22分钟,o1研发团队在项目Bob McGrew组织下,一起分享了「啊哈」时刻。

o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开

有的人提到,全新o1模型相当于多个博士「合体」而成,往往比人类表现更好。还有的人称,o1发布之后,明显感受到了AGI到来。

「当模型在数学、编码、围棋、国际象棋等领域的表现超过人类时,AGI的未来变得更加明朗」。

来自艾伦研究所的科学家Nathan Lambert对这个视频,做了一个精彩亮点的总结。

一共有8点:

1 强化学习加持的o1,比人类更善于发现新的CoT推理步骤

2 自我批评的涌现,是o1最强有力的时刻

3 让o1「超时」前完成回答,然后突然有了「啊哈」时刻

4 scaling参数规模的挑战,以及继续沿着强化学习算法进步之路

5 许多人提到,相对于算法而言,基础设施显得多么重要

6 通过规划、纠错,o1能够解决世界上的新问题

7 新的训练范式是一种全新的方法,可以将更多的算力投入到模型中

8 o1编写代码时,当其输出要使用的代码时,需要通过单元测试

接下来,具体来看下o1模型背后的故事。

强化学习+思考,o1开启新范式

o1作为OpenAI全新系列,与GPT模型最大不同,就在于推理。

它本质上,是一个推理模型,也就是会比以往「思考」得更多。

在OpenAI研究人员看来,「思考」就是推理的一种最直观的方式。

有时候,当被问及意大利首都是什么问题时,我们几乎不用思考,即刻就能得出答案。但有时候,涉及商业企划书、写小说等人物时,便需要长时间的思考过程。

毋庸置疑,思考时间越久,结果就越好。

因此,推理是将思考时间,转化为最优结果的能力。

用Mark Chen的话来说,推理是一种「原语」,是实现任何可靠思考过程的必经之路。

关于推理的研究,OpenAI内部其实很早就开始了。成立初期,他们看到了AlphaGo通过RL算法战胜人类的潜力,并进行了大量的研究。

比如,他们曾在2016年开放游戏测试平台「Universe」,是一个训练AI通用智能水平的开源平台。

2018年打造出名为OpenAI Five的游戏AI,成功击败了两届DOTA2国际邀请赛的世界冠军OG战队。

与此同时,数据和机器人领域,取得了重大的scaling进展。

OpenAI团队便开始思考:如何在通用领域做到强化学习,实现一个非常有力的AI?

那便是,GPT系列开启的全新范式。它在扩展无监督学习方面,取得了惊人的成果。

o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开

而且,也就是从那时起,研究人员便开始探索,如何将这两种范式相结合——强化学习和无监督学习。

研究人员称,这项努力开始的确切时间点,很难说,但这件事已经进行了很长时间。

「啊哈」时刻

在视频中,有人表示,自己觉得研究中最酷的就是那个「啊哈」时刻了。

在某个特定的时间点,研究发生了意想不到的突破,一切忽然就变得很明了,仿佛顿悟一般灵光乍现。

所以,团队成员们分别经历了怎样的「啊哈」时刻呢?

有人说,他感觉到在训练模型的过程中,有一个关键的时刻,就是当他们投入了比以前更多的算力,首次生成了非常连贯的CoT。

就在这一刻,所有人都惊喜交加:很明显,这个模型跟以前的有着明显的区别。

o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开

还有人表示,当考虑到训练一个具备推理能力的模型时,首先会想到的,是让人类记录其思维过程,据此进行训练。

对他来说,啊哈时刻就是当他发现通过强化学习训练模型生成、优化CoT,效果甚至比人类写的CoT还好的那一刻。

这一时刻表明,我们可以通过这种方式扩展和探索模型的推理能力。

这一位研究者说,自己一直在努力提升模型解决数学问题的能力。

让他很沮丧的是,每次生成结果后,模型似乎从不质疑自己做错了什么。

然而,当训练其中一个早期的o1模型时,他们惊奇地发现,模型在数学测试中的得分忽然有了显著提升。

而且,研究者们可以看到模型的研究过程了——它开始自我反思、质疑自己。

他惊叹道:我们终于做出了不一样的东西!

这种感受极其强烈,那一瞬间,仿佛所有东西都汇聚到了一起。

还有一位研究人员表示,当你要求模型在「超时」前,完成思考,过程非常有趣。

这就像自己在参加数学竞赛一样,任何思考都是有时限的。

他表示,这也是自己进入AI领域主要原因,而现在,对于自己来说,也算是实现了「闭环」时刻。

另外,o1模型让人惊艳的是,在推动科学发现和工程进步,有巨大的帮助。

对于很多人而言,AGI似乎是一个很抽象、很遥不可及的概念,直到亲眼看见AI在人类擅长的事情上做得更好,才能相信AGI的到来。

对专业的国际象棋和围棋手而言,IBM的Deep Blue,以及DeepMind AlphaGo和AlphaZero,让他们早在几年前就意识到了这一点。

而对OpenAI的这群擅长数学和编码的科学家,o1模型就有类似的意义。更有趣的是,他们的工作相当于是亲手制造了一个可以碾压自己能力的AI。

项目中,遇到哪些困难?

关于过程中遇到的障碍,研究人员们直接表示,训练LLM从根本上来讲就是一件非常困难的事情。

类似于从地球发射一枚飞往月球的火箭,成功的路只有很窄的一条,但有数不清的失败之路,稍微偏离一个角度就无法到达目标。

训练过程出问题的方式可以有上千种,即使在这群才华横溢的研究科学家们手中,每轮训练也会遇到数百个问题。

此外,随着模型变得越来越智能,比如像o1一样相当于手握几个phd学位的人类,评估也变得越发困难。

有时,他们需要花很长的时间来确定模型做的事情是否正确,而且最后很多常用的行业基准也趋于饱和,需要重新找到适合o1能力的基准测试。

除了模型的开发历程,研究人员们还被问到了自己最喜欢的o1模型用例。

Hyung Won Chung表示,o1可以成为很好的编码助手。

他自己在工作时通常遵循TDD(Test-Driven Development)的开发方式,有了o1的帮助可以免去自己编写单元测试的工作,而是直接指定需求,让模型自动编写。

此外,遇到的报错信息也可以直接扔给o1,虽然有时不能直接解决问题,但它可以比编译器提出一个更好的问题,帮助你解决错误。

Jason Wei则表示,自己经常把o1当成头脑风暴的伙伴,而且可以讨论的问题范围相当之广,大到如何解决一个机器学习问题,小到如何起草一篇博客或推文。

他今年5月撰写的一篇关于LLM评估的博客,就借鉴了o1的意见,比如文章的结构、各种评估基准的优缺点以及行文风格等等方面。

在OpenAI工作是一种什么样的体验?

关于这个问题,很多人都谈到了大家的聪明才智,以及团队氛围的融洽。

比如自己吭哧吭哧调试了一周的代码,被路过的同事瞬间解决了;每天和极其聪明的同事共处,让自己逐渐变得谦卑。

Mark Chen形容「草莓」项目是一个非常「有机」(organic)的项目,因为在专业问题上大家都有自己的看法和主见,都有满怀热情想要推动的想法。

当这些想法聚集在一起,就会迸发出火花,像滚雪球一样越滚越大。

然而,有主见的另一面,就是所有人都很坚持自己的看法,但并不固执。如果看到反驳自己主张的客观结果,他们也会随之改变想法。

更值得赞叹的是,这群绝顶聪明的人,同时也很nice,乐于帮助别人解决问题,同事之间一起吃饭、一起出去玩,让采访中的很多研究者都直言,「在这里工作是非常好的经历」。

o1-mini背后的故事

o1-mini发布的动机是,为更多研究人员提供预算较低,但推理能力依旧很强的模型。

它可以称得上是「推理专家」,比以往OpenAI最佳模型还要聪明。

而且,成本和延迟都非常低。

或许,它可能不一定知道一位名人,以其出生日期,但确具备了如何进行有效推理,和大量智慧的能力。

OpenAI研究人员表示,将进一步改进算法,使之能够媲美最好的小模型。

除此之外,全世界的研究人员一直以来,都在投入更多的计算和硬件,使得模型成本在很长一段时间内,呈指数级下降。

然而,一个缺陷是,我们没有去花费更多时间,寻找一种新的方法扭转局面。

o1新范式,便是我们的发现——推理scaling,也能很好优化算力效率。做研究的动力是什么?

这批「智慧大脑」能够聚在一起,究竟是什么原因,激励着他们去做研究?

一位研究人员称,一想到自己通过不同方式,让模型实现推理,这个过程简直太迷人了。

还有人表示,「好事多磨」。

o1能够回答如此神速,这是朝着能够长时间思考问题的模型,迈出的第一步。未来,还将需要进行数月、甚至数年的研究,让其迈向下一个征程。

「一想到我们少数人能够产生改变世界的影响,就非常兴奋,有意义」。

最抓人的一点是,新范式解锁了模型以前无法完成的任务,这不仅仅是回答某些查询,而实际上已经通过规划、纠正错误,泛化出新的能力。

甚至,o1能够产生新的知识,对于科学发现来说,这是最令人兴奋的部分。

研究者表示,在短时间内,模型将成为自身发展,越来越强大的贡献者。

最后,当o1负责人问道,「还有什么其他观察值得一提吗」?

Jason Wei分享道,「一个有趣的观察是,每个训练出来的模型都略有不同,有自己的怪癖,就像一件手工艺品。这种独特性为每个模型增添了一丝个性之处」。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-23 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

何小鹏体验特斯拉FSD完整版视频发布:在美国很丝滑
...前往美国体验了特斯拉的FSD智能驾驶,今日,其放出了完整版的视频。视频较长,达到了半个小时之多,此次大体分为三个部分,第一就是城区智驾,第二虽然也是城区智驾,但中途中出了一些
2024-06-25 18:51:00
《工厂蛇患》9月19日上线!蛇群猎杀盛宴尺度爆表
...戮不断升级,更残酷的较量同时也在工厂工人之间上演!金牌班底爆款不断 顶级特效加持狂蟒破屏而出影片《工厂蛇患》由金牌电影制作团队“项氏兄弟电影”操刀制作!作为头部内容制作方,“
2025-09-17 13:54:00
索尼官宣《最后生还者:完整版》!售价约804元
索尼官宣推出《最后生还者:完整版》,完整版包括《最后生还者:第一部》《最后生还者2:复刻版》。游戏的数字版现已推出,售价99.99美元(约合人民币731元)。游戏的实体收藏版一并
2025-04-11 09:26:00
她的画竟卖700多万!TA们刷新了纪录 | 2024国际面孔
...男子10000米世锦赛冠军,这是他职业生涯的首枚万米奥运金牌。2020年东京奥运会时,切普特盖在万米比赛中遗憾失手,摘得银牌。“我无法形容这种感觉。”拿到梦寐以求的金牌,切普
2024-12-27 10:05:00
曝金赛纶在海外结婚流产,7分钟的录音文件全曝光
...中还讲到了金赛纶的两个其他男朋友。7分钟结婚录音完整版,全部公开,细节内容全是金赛纶的对话,据了解,录音是金秀贤的金牌经纪公司发给李镇浩的!我们先来看看7分钟的录音文件里所说
2025-03-19 20:56:00
...发电,我们还需要继续做什么?自动播放△《新闻1+1》完整版1亿摄氏度突破1066秒,意味着什么?超过1亿摄氏度能够稳定运行1066秒,这件事情本身到底意味着什么,我们离真正的
2025-01-22 06:31:00
凌晨放大招!OpenAI 宣布免费开放 Deep Research
... 250 次查询,免费用户每月可获得 5 次查询。在使用完完整版 Deep Research 每月额度后,ChatGPT 将会自动切换为轻量化版本
2025-04-25 11:12:00
《第九哨兵姐妹》通过steam提供抢先体验版售价4.99美元
...16种武器类型,37个强化部件,3个英雄和1条战略路线。完整版将添加更多的角色,武器,零件,阶段和敌人。抢先体验版预计将持续6个月至1年。关于这款游戏克隆女孩们的战斗在被外星
2023-10-07 20:29:00
《地铁:最后的曙光》完整版正式开领!Steam特别好评
《地铁:最后的曙光》完整版今日正式开领!游戏目前在Steam平台的玩家测评为特别好评,领取活动截至5月26日上午1:00
2023-05-21 13:46:00
更多关于科技的资讯:
京东年货消费观察:AI玩具、家政服务、宠物年服跻身“新年货” 情绪价值成为年货新要素
退休的李阿姨购物车里堆满了坚果礼盒、糕点礼盒;80后的小晨选购了寓意“马上有福”的生肖挂饰,并给老家添置了智能电器;一位年轻的95后母亲则为孩子精心挑选了红色“新年战袍”……腊八过后
2026-02-06 11:07:00
2026钉峰会走进长沙,为企业打开通往AI时代大门
1月29日,“AI时代的工作方式”2026钉峰会走进长沙。当地近200位企业代表、行业专家齐聚一堂,探讨AI时代企业数字化转型机遇
2026-02-06 11:08:00
中新经纬2月5日电 据韩联社报道,韩国电商平台酷澎(Coupang)5日表示,在去年11月确认的用户个人信息外泄事件中
2026-02-06 08:19:00
春节AI大战杀疯了!2月6日一早,千问APP“春节30亿大免单”正式上线,发动奶茶攻势,邀请全国人民用AI一句话免费点奶茶
2026-02-06 08:35:00
以AI之名 勇立潮头
2月1日,在法国首都巴黎的香榭丽舍大街,由宇树科技及其法国代理INNOV8集团提供的机器人参加巡游活动。 新华社记者 张百慧 摄宇树科技的机器人在新疆阿勒泰-47
2026-02-06 08:38:00
“国际奥委会基于阿里巴巴千问大模型,打造了奥运史上首个官方大模型。”2026年米兰—科尔蒂纳丹佩佐冬奥会开幕在即,当地时间2月4日
2026-02-06 08:39:00
这颗以中国人姓氏命名的彗星,发现者是来自浙江的他
如果天空中有一颗彗星,以你的姓氏命名,是种什么体验?来自浙江乐清的天文爱好者孙国佑,刚刚体验了这份专属浪漫。近日,国际天文学联合会小行星中心发布公告
2026-02-06 08:39:00
厦门网讯 (厦门日报记者 李晓平)昨日,“2025胡润中国500强”发布,聚焦中国最具价值非国有企业。该榜单显示,总部位于厦门的7家企业入围
2026-02-06 08:40:00
纵览原创|2025胡润中国500强榜单发布:河北10家企业上榜,长城汽车进入前100强
见习记者 刘世鹏2月5日,胡润研究院发布《2025胡润中国500强》榜单,列出了中国500强非国有企业,按照企业价值进行排名
2026-02-06 08:45:00
春节前夕,健康科技品牌倍轻松推出的“早睡娃娃”IP成为年货市场关注焦点。1月23日至25日,倍轻松全国巡展首站在深圳KKONE购物中心举办
2026-02-06 10:16:00
MISTINE蜜丝婷第四届皮肤光生物学峰会举行 美妆科技迈入AI时代
2月3日,以“AI御光不止防晒”为主题的MISTINE 蜜丝婷第四届皮肤光生物学峰会举行,首次公开“AI线粒体级抗光损科技”
2026-02-06 10:37:00
“这里的创新土壤,让我们有不怕跌倒的底气”近日,在杭州市余杭区的梦想小镇一见面,32岁的曹道帆就带着记者来到国际科技产业创投中心一楼展厅
2026-02-06 08:08:00
2月5日,太重向明为云南煤矿用户量身打造的皮带机智能集控系统正式全面投产运行。这条陪伴用户多年的煤炭输送线,在太重向明定制化“数智方案”赋能下
2026-02-06 07:05:00
马克予摘要:抽样理论长期以来构成统计推断的基础,其核心功能在于信息受限条件下,通过概率机制实现对总体特征的可靠推断。然而
2026-02-06 07:13:00
江南时报讯 在金融服务日益普及与下沉的今天,丹阳农商银行积极响应国家发展普惠金融号召,坚定“做小做散”战略定位,以收款码业务为抓手深耕本土
2026-02-05 23:52:00