• 我的订阅
  • 科技

o1 基石论文火爆传阅:Ilya 仍是关键先生,核心项目清北校友闪光

类别:科技 发布时间:2024-09-18 09:51:00 来源:IT之家

自从 Ilya Sutskever的名字出现在 OpenAI o1 背后团队名单中,他在 o1 中发挥了哪些作用,一时间成为不少网友的关注焦点。

o1 基石论文火爆传阅:Ilya 仍是关键先生,核心项目清北校友闪光

这不,机器学习工程师 Rohan Paul 刚刚发帖表示,去年 5 月份 Ilya 合著的一篇论文不能错过。

论文题为“Let's Verify Step by Step(一步步来验证)”。不光是 Ilya,其中还有不少作者同样是 OpenAI o1 的背后贡献者。

o1 基石论文火爆传阅:Ilya 仍是关键先生,核心项目清北校友闪光

甚至有网友将这篇论文称作是 AI 领域仅次于“Attention is all you need”的第二著名论文。

o1 基石论文火爆传阅:Ilya 仍是关键先生,核心项目清北校友闪光

除此之外,在关于 OpenAI o1 背后团队的热议中,OpenAI 科学家 Noam Brown 最近发帖澄清并没有主导草莓 / o1。但同时也透露 o1 项目是一个多年研究的成果,从去年 10 月开始真正加速发展。

o1 基石论文火爆传阅:Ilya 仍是关键先生,核心项目清北校友闪光

这么来看,Ilya Sutskever 会是 OpenAI o1 的“基础贡献者”也就更不令人意外了。接下来深入看看“Let's Verify Step by Step”这篇论文以及 OpenAI o1 背后的贡献者。

Ilya 在 o1 的作用

OpenAI o1 主打进行通用复杂推理,在输出回答之前,会在产生一个很长的思维链,以此增强模型能力。而 Ilya 此前合著的这篇论文主要就是探讨了提高大语言模型多步推理能力的方法。

他们主要比较了结果监督(outcome supervision)和过程监督(process supervision)两种方法在训练奖励模型上的效果。结果监督侧重于模型最终输出的正确性。而过程监督则关注模型在推理过程中每一步的正确性,能够指出答案中具体哪一步是错的:

o1 基石论文火爆传阅:Ilya 仍是关键先生,核心项目清北校友闪光

团队使用 GPT-4 基础模型,在 MATH 数据集上进行了实验。由于过程监督没有简单的自动化方法,所以只能依靠人工数据标注者来标记模型生成解决方案中每个步骤的正确性。

他们收集了大量人类反馈数据,创建了 PRM800K 数据集,包含 80 万个步级标签。实验分为大规模和小规模两种体制,各有优势并提供不同视角。

研究结果发现:过程监督显著优于结果监督,能够训练出更可靠的奖励模型。

使用过程监督训练的最佳模型在 MATH 测试集具有代表性的子集上解决了 78.2%的问题,明显优于结果监督模型(72.4%)和多数投票基线(69.6%)。

o1 基石论文火爆传阅:Ilya 仍是关键先生,核心项目清北校友闪光

研究还证明了大型奖励模型能够可靠地近似人类监督对较小奖励模型的效果,并且能够高效地进行大规模数据收集的消融分析。

主动学习(active learning)还可以显著提高过程监督的数据效率,大约提升了 2.6 倍。

o1 基石论文火爆传阅:Ilya 仍是关键先生,核心项目清北校友闪光

团队还讨论了过程监督的几个关键优势。首先,它提供了更精确的反馈,使得功劳归因更加容易。其次,在 AI 对齐方面,过程监督更有可能产生可解释的推理。

为了评估模型的泛化能力,团队还在 AP 物理、AP 微积分、AP 化学和 AMC 考试题目上进行了测试。结果显示,过程监督训练的模型在这些新问题上仍然表现优异,证明了其对适度分布偏移的鲁棒性。

大模型飞速发展一年后的今天,再来看这篇论文,有学者指出现在来看没有太多新的想法:

关键 idea 就是过程奖励模型,它可以单独评估每个步骤或 token,而不仅是最终结果。

o1 基石论文火爆传阅:Ilya 仍是关键先生,核心项目清北校友闪光

但也正如网友所说,这篇论文总归来说是迈向 OpenAI o1 的一步。

o1 基石论文火爆传阅:Ilya 仍是关键先生,核心项目清北校友闪光

o1 则代表了“从记忆答案到记忆推理的范式转变”。

o1 基石论文火爆传阅:Ilya 仍是关键先生,核心项目清北校友闪光

清北校友 o1-mini 主要负责人

除了 Ilya Sutskever,关于 o1 背后团队也引发了不少关注。官网给出的全名单,分成了推理研究和推理技术安全两块。粗略一看已经远远超一百人。

咱们主要看看研究这块。

基础贡献者:21 人;Leadership:7 人; 核心贡献者:46 人; 贡献者:82 人; 项目经理:2 人; 执行领导:8 人; 支持领导:8 人。

在基础贡献者中我们也看到了不少熟悉的影子以及华人面孔。

Jason Wei,OpenAI 研究员,此前曾在谷歌大脑工作,他是思维链的提出者,也曾参与大模型涌现能力以及 GPT-4 的研究。

o1 基石论文火爆传阅:Ilya 仍是关键先生,核心项目清北校友闪光

Shengjia Zhao,本科毕业于清华,随后前往斯坦福攻读博士学位,22 年毕业之后就来到 OpenAI。个人介绍中显示,热衷于训练大模型,他是 ChatGPT、GPT-4、GPT-4o mini 的核心作者之一。

o1 基石论文火爆传阅:Ilya 仍是关键先生,核心项目清北校友闪光

任泓宇,2018 年毕业于北京大学,随后来到斯坦福攻读计算机博士学位,当时方向就是大语言模型。加入 OpenAI 之前曾在微软英伟达谷歌苹果这些科技巨头待过。他是 GPT-4o 的核心贡献者,GPT-4o mini 的领导者,主要教模型如何更快、更努力、更敏锐地思考。

o1 基石论文火爆传阅:Ilya 仍是关键先生,核心项目清北校友闪光

当模型第一时间发布时,他曾表示 o1-mini 是他最喜欢的一款模型。

以上这两位清华北大校友,应该是 o1-mini 的主要负责人没跑了。

o1 基石论文火爆传阅:Ilya 仍是关键先生,核心项目清北校友闪光
o1 基石论文火爆传阅:Ilya 仍是关键先生,核心项目清北校友闪光

Francis Song,本博分别毕业于耶鲁和哈佛,曾在 NYU 担任助理研究员,方向是计算神经科学。在 DeepMind 待了四年后,22 年来到了 OpenAI。

Wenda Zhou,本科毕业于剑桥大学,在哥伦比亚大学获得博士学位,来到 OpenAI 之前曾在 Simons / NYU 当研究院,去年加入 OpenAI。

Kevin Yu,毕业于 UC 伯克利,曾就职于 NASA。

在 Leadership 里还有位华人面孔。

Mark Chen,目前是 OpenAI(前沿)研究副总裁。曾就读于 MIT 数学与计算机科学专业,曾在 Integral Technology 担任量化研究合伙人。

他表示 o1 模型虽然能在 IOI、IMO 这样的竞赛中取得优异成绩,但重点不应该放在 AI 擅长考试这一点上。而是它能帮助研究人员,比如更快发现新材料、找到治疗疾病的方法等等。

这是个新范式的开始,非常早期但非常重要。

谈到未来的愿景,他提到,未来将有两种基本商品,那就是智慧和能源 —— 拥有创意的能力,完成智力工作的能力,以及能源,即在世界上实现这些目标的能力。

至于大模型进展,他表示不仅没有放缓,而且已经掌握了未来几年的主动权。

o1 基石论文火爆传阅:Ilya 仍是关键先生,核心项目清北校友闪光

参考链接:

[1]https://arxiv.org/abs/2305.20050 [2]https://openai.com/openai-o1-contributions/ [3]https://x.com/rohanpaul_ai/status/1835427161370738983?s=46&t=iTysI4vQLQqCNJjSmBODPw [3]https://x.com/EarningsNugget/status/1834800151598453085

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-18 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...文转自:扬子晚报5月28日晚,常熟理工学院校友音乐会《闪光的记忆》隆重举行。本次音乐会共邀请了朱玄刚、吴思源、肖悦、朱洪闯、陈丹蕾、梁栋、刘长坤、马文青和邓雨晨九位优秀毕业生
2023-06-07 01:59:00
电影《一代人师严修》三城点映好评不断 教育家精神历久弥新激人奋进
...国精神“严修先生的思想是一座宝库,如今看来依旧熠熠闪光。电影讲述的虽然是百年前的故事,但是其精神传承至今仍旧能够发挥出振奋人心的力量。”南开深圳校友会会长周达说。在风雨飘摇的
2024-09-11 10:32:00
众行以致远 青春更闪光
...且是学材料、学物理、学化学的。这些学科屹立在数学的基石上,在接触新兴领域前沿知识的过程中,我感到充满了动力。”周致远曾经的梦想是做一名老师,如今,已成为“班级小老师”,这让他
2024-03-27 09:20:00
优秀校友│泰安一中优秀校友程功获“新基石研究员”
...社会力量资助基础研究力度最大的公益项目之一——“新基石研究员项目”第二期获资助名单揭晓,来自13个城市28家机构的46位杰出科学家,成为新一期“新基石研究员”。其中,泰安一中
2023-11-09 09:55:00
三峡大学新地标,正式落成!
...学100年暨本科教育45周年之际,三峡大学新地标——水电基石广场正式落成。活动现场据悉,为纪念三峡大学在国家重大水利电力工程建设中做出的特殊贡献,在广大师生、校友的关心支持下
2023-10-06 14:46:00
【沈阳处处有故事·大学篇】沈阳农业大学党委副书记、副校长李斌:躬耕沃土 逐梦振兴
...子”“菜篮子”的陈温福院士、李天来院士等等,一串串闪光的名字铸就了沈农丰厚的文化底蕴和学术荣光。春华秋实、为民谋天始终是沈农追求的梦想。沈农超级稻遍播辽宁沃野,日光温室菜蔬摆
2024-02-12 21:22:00
流浪纽约的复旦留美博士已与家乡取得联系!当地正助其补证件
...生家乡江苏省江阴市民求助中心工作人员告诉南都记者,校友会已在帮助孙先生补办证件,家乡有关部门正在跟进补办情况。该工作人员透露,中心首次用家乡话与孙先生交流时,“感觉他声音都有
2024-01-08 09:16:00
华科大校长开学典礼上盛赞校友冯骥:打造《黑神话:悟空》火爆全球
...,据报道,华中科技大学校长今天在开学典礼上点名表扬校友冯骥。校长表示:“生命学院本科2000届校友冯骥,制作了国产首款3A游戏《黑神话:悟空》,游戏火爆全球,向世界释放了中华
2024-09-11 16:15:00
...平表示,“核工业是高科技战略产业,是国家安全的重要基石。中核集团将始终把科技创新摆在发展全局的核心位置,坚定不移推动核工业创新发展,布局实施一批重大科技项目,大力突破关键核心
2023-02-25 17:18:00
更多关于科技的资讯: