• 我的订阅
  • 科技

黄仁勋对话Transformer七子:我们被困在原始模型里,还需要更强大的新架构

类别:科技 发布时间:2024-03-22 00:03:00 来源:36氪

作者 | 陈斯达

编辑 | 邓咏仪

英伟达的万众瞩目GTC大会第三天,黄仁勋又憋出一个大招——集齐“Transformer七子”,来一场圆桌讨论。

这场对谈让观众们回到AI浪潮“梦开始的地方”——2017年,谷歌大脑团队发表了一篇名为Attention is all you need 的论文,其中所提出的Transformer架构,为当下大热的ChatGPT、Gemini等大模型打下基础,人工智能领域从此变天。论文的八位作者,也被称为“Transformer八子”。

不过,八位作者后来也陆续离开谷歌。除Lukasz Kaiser留在OpenAI外,其他几位作者都选择离开创业,他们创立的很多公司,也成为这一波浪潮中的当红炸子鸡。

“Transformer 八子”分别是:

Ashish Vaswani,EssentialAI 联合创始人兼 CEO

Noam Shazeer,Character.AI 首席执行官兼联合创始人

Jakob Uszkoreit,Inceptive 联合创始人兼首席执行官

Llion Jones,SakanaAI 联合创始人兼首席技术官

Aidan Gomez,Cohere 联合创始人兼首席执行官

Lukasz Kaiser,OpenAI 技术人员

Illia Polosukhin,NEAR Protocol 联合创始人

Niki Parmar,EssentialAI 联合创始人(因家庭原因未出席)

黄仁勋对话Transformer七子:我们被困在原始模型里,还需要更强大的新架构

来源:GTC 2024

除了其中一位作者因家庭原因未能出席,其余几位都现身对话现场。能凑齐“七龙珠”,也显示出如今如日中天的英伟达排面有多大。

同时,这也是一场关键的产业对话——算力是大模型的核心燃料。此次AI浪潮中,英伟达作为供应商,又极大受益于大模型激增的算力需求。

黄仁勋对话Transformer七子:我们被困在原始模型里,还需要更强大的新架构

对谈开始前,观众排长队入场,图源:X

一小时里,作者们不仅回溯了Transformer的诞生,对模型技术发展的问题和未来路径的看法,也直戳要害:目前基于Transformer的主流模型,基础架构和论文刚发表时进步不多动用万亿参数资源进行简单计算会带来浪费,关注自适应计算才能高效分配计算资源当前模型太实惠,规模还太小,一美元百万token比买本书的成本便宜得多让更多人用上模型,使其不断交互才能变得聪明,待在实验室里并不会造福世界推理是下一个重要的进步节点,能提升数据训练效率,产生更有价值的结果对话实录部分要点整理Transformer因何横空出世?

Illia Polosukhin:如果要做出能真正读取搜索结果的模型,比如做到处理成堆的文档,当时的递归神经网络(RNN)并不能满足这样庞大的信息处理需求。

Noam Shazeer:团队开始探讨用卷积或者注意力机制来取代它。蒸汽机也能实现工业革命,但Transformer就像内燃机让一切变得更加高效。而随着模型规模的增大,智能程度也随之提高。只是在预测下一个token,它就会变得如此聪明,够做一百万个不同的事情。只要想办法扩大规模,就能让它变得更好。

Ashish Vaswani:那些可以扩展的通用架构最终将在长期中胜出。今天的 token 是明天计算机行动的体现,它们开始模仿我们的活动,并自动化我们的工作。Transformer 自我注意,并使梯度下降变得更快。这是一种重复的主题,每次我们创建规则样本时都会体现。

Llion Jones:我想出了「Attention Is All You Need」这个标题。我们当时还在尝试做一些切除工作,尝试扔掉模型的一部分,令我们惊讶的是,甚至在扔掉所有的卷积的时候,模型会变得更好。

Transformer命名来由

Jakob Uszkoreit:我们喜欢这个名字。模型使用了这样一种逻辑,改变了数据生产模式。所有的机器学习都是Transformer,都是颠覆者。

Noam Shazeer:我之前觉得这个名字过于简单,但很多人喜欢。我之前想过很多的名字,比如Yaakov,最终确定了“Transformer”。名字描述了模型的原理,因为它实际上转换了整个信号,按照这个逻辑,几乎所有的机器学习都会被转换。

Llion Jones:我们确实意识到,正在尝试创建一种非常通用的方法。它确实可以让任何东西之间相互转化。我们当时并未预测到这将会有多么成功。它是如此有趣,以至于我们可以将图像翻译成文本,将文本翻译成图像,翻译文本到文本。

Jakob Uszkoreit:在生物学研究的应用中,我们可以将其称为生物软件。起初是一个程序,然后编译成可以在 GPU 上运行的形式。基本上,生物软件的生命始于对特定行为规范的需求,比如在细胞中生成大量特定蛋白质,然后通过深度学习将其转译成 RNA 分子。但实际上,一旦进入细胞,就会表现出这些行为。所以,这个概念不仅是英语翻译成计算机代码还涉及到药物的规范,即完全转化为实际的分子药物。

需要有超越Transformer的东西

Aidan Gomez:在推理方面,已经做了很多工作加速模型的进化,但又与我们先前的形式非常相似。我认为世界需要比Transformer更好的东西。我觉得现在与六七年前的情况相似。

Llion Jones:我认为需要有明显的进步。如果只是稍微改进,那还不足以让整个人工智能行业转向新局面。所以尽管原始模型可能不是现在可拥有的最强大的东西,但我们仍然固守在原来的模型上。

Jakob Uszkoreit:现在浪费了很多计算资源。我们更关注计算资源分配的问题,而非一味扩大资源总量。我们不希望在一个容易的问题上花太多资源,也不想看到在一个太难的问题上花的资源过少,而得不到解决方案。

Illiya Polosukhin:就像2+2,如果输入到模型,就会使用一万亿个参数。所以自适应计算是接下来必须出现的。我们要关注,在特定问题上具体要花费多少计算资源。

为何离开谷歌 & 以后想做什么?

Ashish Vaswani(Essential AI):我们真的想理解并复制人类的认知目标,而不是简单模仿他们在做什么,因为这最终将改变我们与计算机交互以及工作的方式。我离开的一个主要原因是,让这些模型变得更聪明的唯一方式,就是把它们放到人们手中。不可能在实验室中让模型变得更聪明。你必须让它们走向世界,让世界与这些模型互动,从中获取反馈,并让它们变得更聪明。

Noam Shazeer(Character.AI):我离职时,心里最大的挫败感就是,令人难以置信的技术,还无法触及每个人。而它有如此多的用途,如此简单易用。我们的最终目标是帮助全世界每个人。所以我必须离职创业,让这些发生。

Jakob Uszkoreit(Inceptive):我更多意识到,这项技术能比以前更广泛地改善人们的生活质量。我的第一个孩子在疫情期间出生,这让我重新认识到生命的脆弱性。几周后,用于蛋白质结构预测的AlphaFold 2用于蛋白质结构预测的结果公布,Alpha Fold 2比1的一个重大变化是使用了transformer架构来取代其他模型架构,因此它在分子生物学领域可以投入使用。再过几周,mRNA COVID疫苗的功效结果公布,RNA尤其是RNA世界假说的潜力变得非常明确——用RNA就能完成生命中的任何事情,但长期以来数据一直很少,在某种程度上它是分子生物学领域的”遗孤”。所以这几乎成为了一种道德义务,必须有人去做。

Llion Jones(Sakana AI):我是最后一个离开谷歌的。目前我还处于非常早期的阶段。我试图向加入的研究人员灌输的核心理念是,学习总是对的。任何时候,如果你尝试从人工处理某事转向让计算机自己搜索最优解,你总是会赢的。事实上,最初的深度学习革命就是一个例子,我们不再进行人工特征工程,而是直接学习,效果好多了。所以我想提醒大家,有了大量计算资源后,我们除了在狭义的意义上训练大型语言模型外,还可以利用它来探索当前手工工程的搜索空间。

Aidan Gomez(Cohere):我认为这项技术能够改变世界。但现实中一切都没有改变,面对的是停滞状态,存在着技术发展与现实世界之间的差异,对我们这些了解内情的人来说是一种不协调感。所以我希望能够弥合这一差距。我们创建了一个平台,让每个企业都可以采用和集成这项技术到他们的产品中,而不是直接面向消费者。但这是我们想要推广该技术、让它更容易获取、更便宜且更有竞争力的方式。

Lukasz Kaiser(OpenAI):我最终加入了OpenAI。当我加入时,OpenAI正是拥有最好的Transformer模型的地方。在那家公司,我们知道可以利用大量数据和计算资源创造出优秀的东西。我当时还抱有一个希望,即使没有大量数据,只要有更多计算资源就行。

Illia Polosukhin(NEAR Protocol):我们正在从事的一项工作就是,创造一种全新的方式,让人们为超酷的模型贡献数据。它在区块链领域拥有全球最多的用户,有数百万的日活跃用户,他们甚至都不知道自己在使用区块链。但他们正在与这种可编程货币价值进行交互。现在我们开始利用它来重新构建一些工具,以生成更多数据。虽然在这可能是有争议的,但70年代的版权技术需要改变,我们正迎来一个新的生成时代。目前我们奖励创作者的方式已经被打破。唯一的解决方案是利用可编程货币、可编程价值和区块链。

推理是下一个重要的发展方向

Llion Jones:推理是下一个重要的发展方向。很多人已经意识到了这一点,并且正在致力于研究。但是目前很多工作都是手工设计的,我们在手工编写提示信息,然后尝试让它们以我们认为合适的方式进行交互。当然,我们实际上应该搜索这个领域,学习如何将它们连接起来,打造出我们想要的功能强大的模型。

Jakob Uszkoreit:我们希望模型生成的内容能够符合人类的消费需求。这些模型应该接受我们喜欢或可以接受的所有刺激作为训练数据。因此,任何类型的视频、音频、任何观察世界的方式所获得的信息,包括时序信息,都应被纳入训练数据中。

Lukasz Kaiser:如果你有一个能够进行推理的模型,然后你只需要一点点数据。它就会进行一系列的推理,从中产生结果。由此,就能够从更少的数据中进行泛化,因为它在推理过程中进行了大量计算。当我们弄清楚了这一切,就将极大地减少数量。但数据的质量也会变得更加重要。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-03-22 06:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

滴普科技董事长兼CEO赵杰辉:从数据驱动到智能驱动,大模型释放数据平台全新生产力|WISE2023商业之王大会
...度释放生产力。他认为,未来,整个企业领域的数据智能架构将基于数据的基础设施建设,加上基于大模型的AI Agent,形成一个新的数字经济体架构。演讲正文如下:大家好,非常荣幸有
2023-11-29 18:40:00
林达华谈大模型发展之路:未来会有更高效的模型结构出现
...科学家林达华。过去一年,人工智能领域风起云涌,模型架构、训练数据、多模态、超长上下文、智能体发展突飞猛进。大模型的技术演进路在何方?3月24日,在2024全球开发者先锋大会的
2024-03-25 10:53:00
大模型还能怎么创新?复旦教授邱锡鹏:需在新的架构、多模态等方面多做研究
...学术论文,被引用1.5万余次。划重点:1.现在大模型整体架构比较雷同,要想做出创新,还需在新的架构、幻觉问题、多模态等方面多做研究。2.我本身就比较喜欢自由的研究氛围。复旦是
2023-09-28 12:01:00
黄仁勋对话Transformer七作者:很多计算资源被浪费,世界需要更好的模型
...I的过去、现在与未来。当地时间3月21日,提出了Transformer架构、改写AI领域发展历程的论文《注意力就是你所需要的一切(Attention Is All You Need)》的作者们现身英伟达GTC大会
2024-03-21 21:12:00
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
...用,当前主流大模型中,诞生了以BERT为代表的Encoder-only架构、以T5为代表的Encoder-decoder架构
2024-10-21 10:03:00
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
...。但是别被Scaling Law局限,参数小不意味着能力弱,模型架构的重要性应该重新进入我们的视线。MobileLLM不仅在同等大小的模型中达到了SOTA性能
2024-07-23 09:39:00
...行业异构多云场景下的应用上云支撑问题,实现从传统IT架构向基于云平台的高可靠、高并发、高弹性的分布式架构转型,帮助客户快速构建稳定、可靠、高效的行业云平台。目前,该产品已通过
2024-02-27 17:41:00
字节跳动推出对话式ai实时交互解决方案
...端大模型的实时语音通话。▲对话式AI实时交互服务方案架构字节跳动介绍称,对话式AI实时交互解决方案支持开箱即用快速搭建,只需调用标准的OpenAPI接口即可配置所需的语音识别
2024-08-10 04:36:00
...牛旅游网研发中心总经理顾启宁介绍,在“端到端”设计架构下,途致大模型采取小参数“集群”模式,即将机票、酒店、景点等业务模块链接不同的应用接口,以更轻量化的参数运转应对用户碎片
2025-07-30 08:02:00
更多关于科技的资讯:
以“兴趣”为引,开启银龄健康生活新方式:简橙太极如何助力科学养生、乐享晚年
在当今社会,随着健康老龄化的理念日益深入人心,越来越多的中老年人开始积极追求丰富多彩的退休生活和身心和谐的健康状态。这一趋势催生了对优质
2026-02-18 12:53:00
【网络中国节·春节】AI机器人带来新春消费新体验 带旺厦门文旅市场
AI机器人带来新春消费新体验厦门通过AI赋能打造新业态新场景,带旺假期文旅消费市场市民游客观看机器人咖啡师制作咖啡。(夏商咖啡供图)厦门网讯(厦门日报记者 沈彦彦 王元晖)厦门中山路“两岸数智非遗年”现场
2026-02-18 09:55:00
全力保交付 海辰储能厦门基地春节期间维持满负荷生产
位于同翔高新城的海辰储能厦门基地春节期间——满负荷生产 全力保交付春节期间,海辰储能满负荷生产。(厦门日报记者 卢剑豪 摄)厦门网讯(厦门日报记者 林露虹)大年初一
2026-02-18 10:26:00
成功捕获到约6500光年外的宇宙线信号网通院参研的LACT首台望远镜完成“首光”河北新闻网讯(河北日报记者王璐丹)近日
2026-02-18 07:58:00
2026年央视马年春晚,成为机器人扎堆亮相的“超级秀场”。而最牵动人心的,当属杭州宇树科技机器人与河南塔沟武术学校的小朋友同台呈现的节目《武BOT》
2026-02-18 07:04:00
2026年央视春晚演出现场,观众席间不少人佩戴的红围巾火了。微博上有网友实时提问:哪里能买到同款?这条名为“骐骥驰骋”的红围巾
2026-02-18 07:04:00
杭州智造“飞”上春晚 全球首次极寒载人飞行惊艳哈尔滨
图为央视春晚哈尔滨分会场彩排画面。除夕夜,央视春晚哈尔滨分会场以精彩的《冰雪暖世界》演出,带来了属于“冰城”的浪漫和温暖
2026-02-18 07:04:00
宇树春晚的表演,创下至少五个全球第一
网友热议“浙江黑科技” “太硬核了”“不愧是诞生‘六小龙’的地方”当虹科技8K超高清编码技术支持下,演员衣服上的刺绣纹理清晰可见
2026-02-18 07:34:00
豆包除夕AI互动19亿次 Seedance2.0为春晚提供技术支持
河北新闻网讯(记者 李春炜)2月16日,字节跳动旗下AI助手豆包与央视总台春晚联动,面向全国观众送出10万份科技好礼,并推出多项AI互动玩法
2026-02-17 20:35:00
中新经纬2月17日电 千问App数据显示,春节活动期间,全国超过1.3亿人第一次体验AI购物,说了50亿次“千问帮我”
2026-02-17 14:16:00
新春走基层|港口老司机“秀”新操作
2月16日,秦港股份九公司集控中心操作员曹宏璐在工作中。河北日报记者 张辉摄2月16日,农历除夕。下午2时30分许,随着“航旭鑫海”轮进入秦皇岛港902泊位
2026-02-17 08:53:00
1.3亿人春节首次体验AI购物,千问一跃成为国民级AI助手
2月17日大年初一凌晨,千问发布的数据显示,春节活动期间,全国超过1.3亿人第一次体验AI购物,说了50亿次“千问帮我”
2026-02-17 10:22:00
这一年,杭产机器人忙着进化忙着上岗
宇树机器人化身武林高手亮相春晚“这才一年,太震惊了!”昨晚的央视春晚上,宇树机器人和河南塔沟武术学校带来的《武BOT》一亮相
2026-02-17 07:17:00
新春走基层|总台春晚这条“骐骥驰骋”红色羊绒围巾出自河北品牌
见习记者于歆2026年总台春晚舞台上部分演员及嘉宾佩戴的“骐骥驰骋”红色羊绒围巾,出自河北品牌!由邢台市清河县的河北红太集团生产
2026-02-17 01:36:00
阿里发布千问3.5,性能媲美Gemini 3, Token价格仅为其1/18
2月16日除夕当天,阿里巴巴开源全新一代大模型千问Qwen3.5-Plus,性能媲美Gemini 3 Pro,登顶全球最强开源模型
2026-02-16 17:34:00