• 我的订阅
  • 科技

被质疑、抄袭、魔改,非主流大模型的诞生之路

类别:科技 发布时间:2024-10-14 13:40:00 来源:虎嗅APP
被质疑、抄袭、魔改,非主流大模型的诞生之路

出品 | 虎嗅科技组

作者 | 王欣

编辑 | 苗正卿

头图 |《小丑》

虎嗅注:RWKV创始人彭博是今天故事的主人公,在Transformer架构大行其道的当下,他一个人花了三年时间构建了RWKV架构,一种不同于Transformer架构的RNN架构。本文为虎嗅 《AI星火》系列 第 07篇稿件,《AI星火》系列聚焦AI细分行业的头部公司,通过记录AI创业者的故事,折射出他们对AI产业的共识与非共识。

在见到RWKV创始人彭博之前,我也像一些人那样,怀疑过他是骗子或者“民科”。

他的公司元始智能员工在小红书发表的,诸如“OpenAI走到死胡同”这样的“暴论”下面,评论区也不时会有对他们质疑和诋毁的声音,比如让他们拿出证据,证明他们自研的大模型架构RWKV6确实比OpenAI强。

但彭博完全不在意这些声音,或许这就是成为另类的代价。——在诸多大模型公司都选择与OpenAI相同的Transformer架构时,彭博用了三年时间走上了另一条路,将Transformer改写成RNN形式,保留了较低的时间空间复杂度。“给我十万张卡和100个小弟,我把OpenAI干趴下。”彭博半开玩笑半认真地告诉虎嗅。

虽然他们走的是完全不同于OpenAI的路子,但2023年春节,彭博收到了“竞对”OpenAI的入职邀请。元始智能联创罗璇解释说,这能够说明他们确实有颠覆OpenAI的可能性,而这个offer更像是一张用以招安的投名状,是对彭博一种另类的“认同”。

被质疑、抄袭、魔改,非主流大模型的诞生之路

图片注:彭博收到的Open AI offer

但业内也有一些声音,认为RWKV架构与Transformer架构并没有本质上的区别。

另外,他们在融资进程上也难言“丝滑”,资本对他们的认可度并不高。彭博毫不避讳地告诉我,一些投资人对他们的判断也是“野生科学家”。

这导致了算力和人力资源限制,也影响了RWKV的硬指标。“现在大家scale得比较先进,炼的token也多,这方面我们相对还比较落后”,彭博表示,token多的模型先天有很大优势,但他也相信“等到token量上去了,他们就不能轻易黑我们了”。

少有人走的路

但相信RWKV路线的人,仍然存在。

比如某技术出身的知名投资人,在2023年底,这位投资人给予了RWKV团队千万元级别的种子轮投资。为了获得RWKV团队的信任,他专程去彭博楼下的咖啡馆聊了两小时,认购了1%股权。

让这样的知名投资人亲自登门拜访,并非创业者的常态。但彭博几乎足不出户,他需要足够的独处时间来“炼丹”。

在大多数都做做模型层的工作时,彭博却选择了模型底层架构的研究,他认为现在的AI公司专注的是机械智力的提升,而他同时也关注创造力和智慧的提升。前者指向大脑,有明确的通路(如通过合成数据);而后者最终指向心和意,路径却有待探索——但这将是真正有趣的问题,需要理解和创造灵性。

最初做这件“希望改变世界时间线”的事情,初衷是因为彭博想探索AI是否能写出“真正有力量”的小说,特别是架空小说。彭博用“愚公移山”来形容这项工作,“这其实是体力活,需要实现和测试大量细节。”

2020年,彭博开始做模型,起初是对transformer架构的改进——引入显式decay和短卷积。

在优化attention机制时,彭博发现它可以写成RNN,引入RNN效率更高和形式优雅的优点后,效果仍然得以保持,通过这种方法,RWKV-2诞生了。

在2016年,AI学术界最流行的架构是RNN循环神经网络的变种——LSTM;但半年后,与其对标的Transformer横空出世,使得曾经大火的RNN成为落伍的少数派。因此,RWKV可以称得上是RNN的复兴。

2023年,彭博很快获得了开源社区的关注,LSTM之父Sepp Hochreiter也转发RWKV的推文,并介绍这是一种无需使用注意力机制,就能达到Transformer性能的RNN架构,运行速度很快。

随着关注度的提升,对RWKV的质疑也接踵而至。有某头部AI公司技术负责人向虎嗅直言:“RWKV架构与Transformer架构并没有本质上的区别。”

在7月的一次见面交流时,为了改变我将信将疑的态度,元始智能联合创始人罗璇特地给我展示了研究RWKV架构并发表论文的研究人员,这包括:上海人工智能实验室、阿里达摩院、腾讯优图实验室等等机构的学者,他们在官网rwkv.cn上展示了二十多篇在各种模态使用RWKV的论文。

学术界一直在探索将物理世界压缩复刻到一个大模型的世界模型,而彭博坚信,RWKV架构作为RNN,是通往世界模型的最合适通路。

彭博的逻辑是:因为RNN更接近人脑和宇宙的运作方式,RWKV是state大小恒定的RNN——正是固定大小的限制,迫使模型学到真正的东西,必须把世界压缩到它的state里去。就像在玩《星露谷》时,由于背包格数有限,玩家只能选择储存最重要的物品。

彭博从物理学的角度向我解释了RWKV的优势。在物理上,宇宙的下一状态只与上一状态有关,这是所谓的locality和causality,量子场论遵循这一原则。而Transformer是一种state(KV cache)不断增大的RNN,它每个字都要和前面的字比对一遍,这相当于“超距作用”,不符合我们这个宇宙的物理。因此,在彭博看来RWKV更加接近这个世界的本质。

彭博甚至更激进地表述:我们目标是做真正的智能,现在可以用混合模型作为过渡方案,以后一定是纯RWKV。

而能做成这件事的信心,除了以上的优势外,“运气也很重要”,彭博自认为一向是个运气挺好的人。

跳出循环

出乎我意料的是,彭博身上并没有我所假设的——那些恃才傲物的刻板印象,他多次向我强调他其实是个谦虚和谨言慎行的人。例如,当有投资者问到RWKV目前的弱点和缺陷,他会直说,并给出解决改进方案。他也告诉我:“现在的算力和人力资源限制,在一定程度上影响了他证明RWKV架构的先进性。”

这样的资源限制,是因为他们得不到太多来自资本的支持。

虽然在2024年的奇绩创坛路演上,陆奇曾用“受北美尊重的公司”来介绍他们,但大部分时间他们并不是风投的宠儿。

几乎每次见投资人,彭博都需要花费很长时间去解释RWKV,罗璇感觉“他们好像来学习”一样,学完之后,可能还会有人说被骗了,“这就是个民科”。很多投资人不敢投,是因为他们也看不懂这些大模型的底层技术,另外在大多数人都选择Transformer路线时,投资人对于RWKV这样非主流的路线更为谨慎。也会有一些来自Transformer主流路线的声音,干扰他们的判断。

而彭博也不会过度花时间去向投资人解释,拉齐认知。因此,彭博选择只在自己家楼下见投资人,这也是一种筛选机制——“如果一个投资人要我过去见面才肯投的话,那说明他不懂我们在做的事情。”

在对冲基金工作过的他,很清楚这样的投资逻辑: 大家追求风险较低的头部路线,有大佬或团队履历背书更佳,这样可以有较为稳定的退出策略。

因此他也十分理解这些投资人的选择,“毕竟有认知有魄力的投资人是少数”。

但大模型研发却需要巨量的资源,我粗略算了下,现在十万张GPU大概需要两百亿人民币。算力和人力资源是摆在彭博眼前的首要限制。“如果我们算力上去了,就很容易证明自己了”。虽然RWKV在一代代迭代下越来越强,但“在算力不够的情况下,有些硬指标确实是不好做的。”在大家都要看硬指标的情况下,难免会陷入被动的循环。

在我表达这样的循环有些可惜后,彭博对此却非常平和自洽:“我觉得没有可惜的,这就是创新者的考验。你选择了更难的道路,就要承担这样的事情,如果你应对不了,就不要创新了,我觉得是很合理。”

彭博认为,时间是站在RWKV这边的。目前资源的限制,会影响大模型的训练,但不会影响RWKV的迭代速度,反而可以成为他的动力:“以小搏大,更好玩。既然要做大事——构建人类所有AI模型的基础架构,就不妨证明自己有能力在任何环境把它做出来,这在后世看,只会更有戏剧性。”

非共识的相遇

为了做这样全新的架构创新,必须有足够的独处空间。彭博几乎没有参加过任何公开活动,因为他有一个关键帮手——元始智能联合创始人罗璇。

罗璇就像美国大片里永远陪伴在男主角左右的靠谱配角一样,充当彭博代言人的角色,频繁出没于各种科技活动现场,积极布道RWKV架构。

罗璇追随彭博,是因为他认为彭博是天才,“他似乎是生来就要做这件事情的”,而彭博认为他只是“很擅长看到其它人难以看到的角度”,他会用更高的视角看待AI与人类的关系。

见面之后我发现,一头长发酷似艺术家的彭博,远比我想象中要鲜活得多。在工作之余,他也会玩《崩坏:星穹铁道》,关注社会和人心,在今年还开始了情感关系咨询的“新业务”。

而在听罗璇讲述了彭博的故事后,我逐渐开始理解罗璇:彭博6岁从三年级读起,16岁参加高考,他的第一志愿是南大物理系,但最终高考分数超出广东省清华分数线40分,在南大入学后,彭博很快就以全奖奖学金转学去了香港大学。

没有选择计算机系的原因是:感觉不需要专门学。在大学任教的父母都认为计算机编程是未来的方向,因此从六岁时彭博就开始写代码,在高中时就出版过游戏编程的书籍。

2006年,彭博在香港大学毕业后去了当时全球最大的外汇对冲基金,做量化模型,并在后来成为其中的几位基金经理之一,在二十多岁管理六千多万美金。

2013年,彭博从香港回到深圳,开始智能硬件创业——禀临科技。2019年,他观察到市场需求,开始做没那么智能的全光谱灯,知乎上也有人戏称彭博为卖灯泡的。

这时还在天猫精灵AI Lab的罗璇,发现智能音箱是一个当时仍然不成立的故事,于是开始了物流机器人创业。

随后疫情来临,公司销量受影响,彭博保持公司运作,专心投入AI模型底层架构的研发,RWKV架构的诞生之路也由此开启。而罗璇所在的行业也受疫情影响,他开始投身组织、参与黑客松活动——用编程解决实际问题的线下活动。

在一次罗璇组织的黑客松上,他跟彭博第一次见面,两个人的命运也由此交汇。

见面时彭博告诉罗璇,他可能是实现AGI的最佳人选——那时他已经独立做了RWKV-1到RWKV-4,并在海外有了不少拥趸。罗璇之前也见过不少天才,但彭博是天才中比较有意思的那类,虽然罗璇当时觉得彭博的说法有些神经病,但他非常认同彭博所做的事情和底层逻辑,于是决定加入元始智能。

而彭博选择罗璇的原因也非常简单:罗璇能够帮彭博做很多他没法分心去做的事情,而且做得不错,两个人非常互补。

“漫长的路,自己选的,自己走。”未来彭博会按照计划,一代代迭代,去解开这个死循环。他说未来的RWKV8会是一个非常有意思的东西。

“你认为人与人本质区别是什么?”

——在交流的最后,善于从本质出发的彭博问我。

“是认知”,他告诉我:“我只能说我后面做的方向是他们做梦也想不到的。”

正在改变与想要改变世界的人,都在虎嗅APP

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-14 15:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

林达华谈大模型发展之路:未来会有更高效的模型结构出现
大模型的上下文长度快速增长,超长上下文解锁新应用,但推理计算代价高昂,上下文本身对于信息不会进行压缩,不能直接捕捉其中的深层知识和规律。上海人工智能实验室领军科学家林达华。过去一
2024-03-25 10:53:00
李开复旗下 AI 公司“零一万物”开源 Yi 大模型被指抄袭 LLaMA
...日消息,创新工场董事长兼 CEO 李开复于今年创办了 AI 大模型创业公司“零一万物”,该公司已推出Yi-34B 和Yi-6B 两个开源大模型
2023-11-14 17:00:00
大模型价格战“卷”向何方?|深度
...你降价,我免费。在经过一年多的“百模大战”后,AI大模型从5月初几乎毫无预兆地掀起了“降价潮”,阿里、百度、腾讯等纷纷加入战团。大厂“钱多、卡多、算力足”无惧价格战,以惯有的
2024-05-25 10:34:00
AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了
...超越作者 | 南风窗记者 朱秋雨编辑 | 向由排版 | 菲菲AI大模型大战在2023年爆发后,AI创业者不免感到有些心灰意冷——不管自己的团队如何加班加点
2023-12-20 00:10:00
年少财富自由,拒绝过盖茨、马斯克、奥特曼,传奇程序员的AGI之路
...生的编程天才,人称“卡神”的John Carmack。 01封“神”之路小时候的Carmack,不是个乖孩子。沉迷游戏
2024-07-16 16:00:00
斯坦福AI团队抄袭国产大模型?连识别“清华简”都抄了!清华系团队发文回应
智东西6月3日消息,大模型“套壳”的回旋镖,这次扎到了美国科研团队身上。最近几天,斯坦福大学AI团队陷入抄袭风波,被质疑“套壳”清华系大模型开源成果,引起舆论哗然。起因是这个团队
2024-06-04 14:35:00
大模型像“文科生”?业内人士在沪“论战”
...自:中国新闻网中新网上海4月15日电 (记者 郑莹莹)“大模型在画画写诗,而人在干活。”一名网友在一场AI专业沙龙的线上直播区如是言。尽管这样说并不准确,但也代表了一部分观众
2024-04-15 22:01:00
李彦宏:AI原生应用比大模型数量更重要
...动,才能行稳致远。如果我们安全、负责任地驾驭AI发展之路,大模型就会重塑数字世界,人工智能就可以为中国经济、乃至全球经济创造无与伦比的繁荣,提高全人类福祉。”以下是演讲实录:
2023-06-26 19:20:00
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
...多基础理论问题尚未得到根本解决。很多人疑惑,未来AGI之路在哪里?在他看来,这可能是所有做大模型研究的学者不断思考的事情。国内外前沿科技公司和科研机构基本上都形成了顶尖的大模
2024-06-05 18:36:00
更多关于科技的资讯: