• 我的订阅
  • 科技

算力卡不住大模型的脖子

类别:科技 发布时间:2023-04-29 02:00:00 来源:虎嗅APP
算力卡不住大模型的脖子

出品|虎嗅科技组

作者|齐健

编辑|陈伊凡

头图|6penAI

“ChatGPT的爆发确实早于我们的预期。”

ChatGPT问世之后,戴文渊和身边的同行们都迅速投入到了相关产品的研发中,一时间,围绕ChatGPT讨论最多的话题是:如何复现ChatGPT,以及围绕芯片算力的问题怎么解决,甚至是如果要实现一个AGI(通用人工智能,Artificial general intelligence),除了GPT还有没有别的方法。

虽然从2018年谷歌推出的上一代预训练语言模型BERT开始,戴文渊和他的第四范式已经在研究AI大模型了,但直到GPT-3出现时,整个产业界才作出判断:大模型将会到达一个举足轻重的位置。

作为国内最早一波AI产业逐浪者,第四范式创始人兼CEO戴文渊将ChatGPT形容为“横空出世”——这比他之前预想的时间节点要提前了一点。他清晰地记得6年前,AlphaGo给行业带来的震撼,并在采访中不断提及,GPT的进化速度比AlphaGo更加迅猛。

算力卡不住大模型的脖子

第四范式创始人兼CEO戴文渊

正在等待港交所IPO过会的第四范式,是国内为数不多的AI独角兽公司。其业务主要聚焦在B端市场的AI智能决策。今年2月底,第四范式在B端市场推出了聚焦企业软件开发和应用的大模型产品“式说”。

戴文渊坦言,虽然他们很早就开始研究BERT、GPT等AI大模型,但在GPT模型的商业化投入方面确实是追随者。“作为AI科学家,对GPT这样的技术我们肯定不能错过。但作为一名创业者,在三四年前,我还看不到基于GPT能力的商业化产出。”因此,多数AI公司或研究团队,在当年对GPT的态度都停留在“研究”而非“研发”。

AI从诞生的那一刻就是要提供“服务”的,其天生就具备商业属性。在大模型刚刚冒头的前几年,国内大模型研发的第一梯队中,也曾传出某公司CEO认为大模型看不到商业价值,差点把整个团队裁撤的流言。而像OpenAI这样执着于一款短期看不到商业价值的产品的公司,在成功之后自然也更具传奇色彩。

近日,在第四范式媒体开放日上,虎嗅与第四范式创始人兼CEO戴文渊进行了一次对话。以下是部分对话实录:

GPT爆发的速度比AlphaGo快得多

虎嗅:ChatGPT出现之后,许多AI从业者都进入了一种“应激反应”,他们或是在大模型里看到了重新创业的机会,或是在做新的布局。ChatGPT诞生,给你的刺激是什么?

戴文渊:业内有一些人是从BERT模型诞生就在关注大模型,直到GPT-3出现后,我们已经可以预见未来生成式预训练模型会有爆发的一天,但没想到会这么快。

ChatGPT出现之后,马上就建立了市场信心,这是ChatGPT给我们带来最大的帮助。从去年9、10月份时,很多人还认为生成式AI不靠谱,但ChatGPT出来了以后,整个市场就开始了从0到1的转变。再往后,很多人就开始推出产品,在市场上推动商业化路线了。

虎嗅:在ChatGPT爆发的这三个月当中,你和同行们都在讨论什么?

戴文渊:同行之间聊得更多的是技术,以及关于整个产业的问题。比如说如何复现一个GPT3.5?有没有可能做出GPT-4?以及算力的问题。到现在讨论得更多的是,我们如果要实现AGI,是不是一定要用GPT去实现,还有没有别的方法?

虎嗅:你的客户都在讨论什么?

戴文渊:在过去的几个月中,大家的认知都在迅速提升。去年12月问得最多的是“你听说过ChatGPT吗?”到今年2月,问的是“ChatGPT我们能不能应用它?”

在产业端,有些激进的人甚至还不知道ChatGPT能做什么,就已经迫切地要在业务中落地ChatGPT了,那个时候是 “市场在等产品”。差不多到2月,公司就必须把产品做出来,因为客户都在等你。

这其实有点像当年的AlphaGo。AlphaGo刚出来的时候,市场也不知道它是什么,GPT这次的发展速度比AlphaGo快得多,AlphaGo出来后的一年,很多人都还是“我不知道它是什么,我只关心对我有没有用”的状态。

然而这次,这种状态只持续了一个多月。大家很快就知道GPT大概能做什么,并且每天都会发现GPT能做的事情比想象得多。这次AI爆发的速度比AlphaGo快得多,带来的机会也更多。

通用大模型不是通往AGI的唯一方法

虎嗅:近期,国内厂商密集发布大模型产品,各种大模型之间差别大吗?

戴文渊:不能说没有区别,但都是基于GPT做的。虽然中国目前没有OpenAI,但可能还会有更多的大模型。

对于我们自己来说,不是去对标OpenAI,也并不是说OpenAI能做什么我就一定要做什么。比如我们的大模型也有画画的能力,但在画画能力上超越OpenAI并不是我们所考虑的。我们更重视发展那些经过我们的思考和判断后,发掘出来的用户需要的能力。

虎嗅:国内厂商密集发布大模型背后,也陷入互相挖人的竞争中,要组建一个AI大模型团队,什么最重要?

戴文渊:我觉得从顶层去看这个问题的话,最重要的不是去竞争某个人或某几个人,而是有一群志同道合的人一起,这样的团队才会有战斗力。如果某个团队全是靠双倍工资挖来的人才,那他的战斗力可能也会比较有限。

如果一个团队有共同的愿景,共同的目标。那这些人其实是挖不走的。对我来说,打造团队最重要的是“认同”。大家能否认同我们正在做的事,以及你是不是特别想把这件事情做成。

虎嗅:算法、算力和数据,这三大要素你认为应该如何排序?

戴文渊:数据最重要,但是这个问题要辩证地来看,数据充分到一定的程度以后,再多就不一定那么重要了。比如说《红楼梦》看过一百遍了,再多看两遍也没那么重要了。

其次是算力。大模型在算力方面是有门槛的。但是对于大厂,或者有一定资金实力的AI公司来说,大家还是能做到这个“牌桌”前的。作为中国公司,我觉得算力需要考虑的问题是有没有国产替代方案。

最后是算法,虽然我认为算法未来可能会有改变,但目前来看Transformer在很长一段时间内是比较固定的。但模型结构会有一些变化,例如模型的稀疏化。

虎嗅:现在大模型训练很多用的都是英伟达的芯片,现在业界更多讨论的是没有英伟达之后呢?

戴文渊:一段时间以来,中国大多数GPU公司走的路线,是通过牺牲显存、网络带宽的方式来追求计算能力的提升,迫近或者超过英伟达。但是对于大模型来说,我们其实需要这三者(计算能力、显存、网络带宽)的折中,这是一个技术路线的问题。从追求极致的算力,调整为追求三者的平衡。目前可能还需要一点时间,这段时间里国产GPU的性能可能跟英伟达有差距,但这个差距可能比想象中小。

通常情况下如果CPU的性能相差2倍,那么软件运行速度就会慢2倍。但是GPU性能相差2倍,大模型的参数量不会缩小2倍,会少1倍多。导致的结果是假设我用了比你差2倍的GPU,我能跑1000亿参数,你可能能跑1000亿多一点的参数。但对于大模型来说,1万亿参数和1000亿参数有本质的区别,“1000亿”和“1000多亿”,其实感受不到本质的区别。

虎嗅:听下来,这三者里所以大模型最容易构筑壁垒的地方是数据吗?

戴文渊:这个问题首先要理解通用模型和专用模型,通用模型就是培养了一个大学生,等到他开始工作了,在某一个领域积累专业的知识与数据,当他在一个行业或领域钻得足够深,就是专用模型。

所以数据的壁垒更适用于在垂直行业和领域,你的数据充分了,别人的数据没有充分,就形成壁垒了。

行业和领域的概念也有所不同。比如Photoshop是一个领域,或者说OA(办公自动化)系统、CAD(计算机辅助设计)软件是一个领域,在这个领域的数据会形成壁垒。

如果你用AI改造了一个软件,那么这个软件逐渐会变成一个领域模型。不仅仅是软件,也是一个模型。

从某种角度来说,我们认为可以通过改造越来越多的领域来实现一体AGI的路线。当你把全部领域都改造完了以后,就形成了AGI。很难想象通过一个大模型最后把所有领域的问题都解决了,那样的话模型量就太夸张了,可能现在的计算体系架构下,要付出难以接受的代价。

To C不是大模型落地的最佳场景

虎嗅:B端和C端谁会更快落地大模型?

戴文渊:在我看来To C和To B各自有各自的机会,短期来看To B可能会落地更快。

因为To B软件在交互上更需要,也更容易升级。To C软件的用户体验经过十几年的打磨,已经逼近用户体验的上限,而B端的企业级软件往往要面对更加复杂的策略和执行,堆砌十几层菜单和成千上万的功能也不算多。

比如抖音,他作为一个短视频平台,用户的操作只需要向上滑就好了,改成对话的形式,体验说不定还下降了。反观B端软件,我和一个合作伙伴聊天时,他给我们展示所使用的软件,下拉菜单甚至已经超过了屏幕的大小。这就给升级创造了条件。

算力卡不住大模型的脖子

To C可能是在生产力方面更有价值,比如AIGC制图,影视加工这些。可能本来要请很多技术人员,现在可以用AI代替了,那你的成本就比别人低,效率更高,或者SKU(品类)更多,这是To C的机会。

虎嗅:第四范式的大模型产品,目前的开发、版本迭代情况如何?与其他大模型产品有何异同?

戴文渊:“式说”的定位是“基于多模态大模型底座的软件开发平台”,主要面对企业开发,与其他大模型一样具备语言能力,但是更偏向于基于AI大模型重构企业软件,也就是AIGS(AI-Generated Software)。

我们认为,如果你要实现一个功能,通过鼠标点菜单点三下才能完成的,那么这次操作的体验基本上不会比通过语音交互来实现更好。所以用新型的交互模式去替代老的交互模式,会使B端软件的体验获得一个很大的提升。

你可以回忆一下自己企业内的报销系统、HR系统、OA系统,我们公司现在的报销系统也挺难用的。但是你试想一下,如果你在报销过程可以用聊天的方式完成。

你说:“我要报销”,然后你把发票拍给软件,大模型识别这是餐厅发票。

它问:“跟谁吃饭了?”

你答:“跟张三吃饭了”

它说:“我接收了。”

结束。

这种体验显然比现在的报销系统要强得多,这是用户体验方面的提升。

另一方面是开发迭代周期的提升。原先是菜单式的功能和界面开发,每次升级都是几个月起。而现在新的交互模式,入口被一个万能对话框取代了,界面已经不重要了。ChatGPT每天都在提升,但是你感受不到它的界面发生了什么变化。

以前是界面层面的升级,现在是数据层面的升级。数据层面的升级都是以天计的,像抖音增加一个特效,也不需要改抖音的界面。

这么看就是用户体验也提升了,开发者体验也提升了。

虎嗅:第四范式的大模型里提到了思维链COT的概念,它在大模型中是以什么形式存在的?

戴文渊:我们日常用到的软件,都是由一个个功能组成的,但我们用软件去完成任务的时候,不只用到一个功能。比如Photoshop,你在Photoshop里调图片亮度,这是一个功能,调对比度,也是一个功能。但是如果你想“把照片P好看点”,它就不是一个功能了,而是通过一个个功能叠加实现的任务,最后按照顺序执行,实现“把照片P好看点”。

这个利用不同功能,一步步完成任务的过程,就是思维链COT(Chain of Thoughts),是一个多步推理的过程。COT相当于是大模型当中的数据。你可以把AI想象成一个每天站在软件使用者背后的人,每天就看他干什么,看多了也就学会了。“式说”就是在用户使用过程当中,让AI去收集他的思维链,以思维链为数据,然后再来做微调和反馈,从而形成AI能力。

基于大模型的思维链,就需要AI有很强的推理能力。虽然没有Photoshop软件的能力,但AI有操作的能力,所以即便AI没见过这个软件,也可以利用COT去学习它的使用方法。

虎嗅:我们通常去评价一个大模型产品好不好,是看效果,那么大模型的落地效果要怎么量化?

戴文渊:最明显的量化指标就是“降本增效”。我举一个B端的例子,比如原来IT部门去迭代一个软件,需要10个人开发半年,现在可能两个人开发两天就搞定了。不说最后效果,就开发效率提升这件事就非常直观。对于企业来说,同样的人力情况下,本来只能开发2个功能,现在可以开发200个功能。

虎嗅:你一直提到B端的应用,安全对于ToB产品来说特别重要。现在各国家和地区也都在提及ChatGPT产品对数据安全的威胁,AI大模型在训练、应用过程中,如何保障数据安全?

戴文渊:在今天这个时间节点上,数据安全最关键的,特别是敏感数据的私有化部署,这个东西暂时是绕不开的。可能在过去可以基于技术做一些数据的可信交换,但是现在不是把数据给你,是把数据给GPT。

我们现在也在研究一些基于GPT的可信的联合计算,比方说基于GPT的联邦学习。这样的方向,我觉得未来是可期的。

正在改变与想要改变世界的人,都在虎嗅APP返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-04-29 05:45:13

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

对话第四范式戴文渊:通往AGI的路线,是把所有软件改造一遍
...的标签——尽管多数AI公司都对此乐此不疲。“式说”大模型的写代码示例;图片来自第四范式4月26日,第四范式首次展示其大模型产品「式说3.0」,在半个小时的断网环境下用画飞机、
2023-04-29 10:57:00
...比最高的业务板块,主要帮助企业客户开发和部署各种AI模型。目前该板块业务收入为25.06亿元,同比增长68.0%,占总收入的59
2024-03-22 18:47:00
发力AI智能体!第四范式升级为范式集团,新增消费电子业务板块
...是利用AI Agent来理解人的需求,并找到相对应的垂直世界模型去解决问题。未来,我们要把格局放到整个市场,面向改造所有可能的业务
2025-03-19 07:22:00
第四范式上半年营收增27%,戴文渊:AI大模型逐渐在回归商业逻辑本质
...式上半年财务摘要据介绍,该业务已支撑第四范式行业大模型在交通运输、数据中心、金融、能源电力、运营商、信息技术、智能制造、零售等14个行业规模化应用,为各行业产出超30款人工智
2024-08-15 23:10:00
第四范式去年亏损收窄七成:今年仍会深挖企业客户智能体落地相关需求
...占总收入的69.9%。2024年3月,第四范式推出了集垂直世界模型开发与管理、企业级AI Agent应用套件、GPU资源池化等端到端能力于一身的先知AI平台 5
2025-04-01 09:26:00
第四范式(06682)获长江证券“买入”评级
...推动下,AI技术呈现飞速发展态势,ChatGPT等大型人工智能模型不断涌现,“人工智能+”已成为国策,在数字化浪潮席卷全球的今天,人工智能已成为企业转型升级、提升竞争力的关键
2024-06-08 22:58:00
博士创新站典型案例|保定市鑫诺电科软件开发有限公司博士创新站:校企协同创新赋民生
...联合共建博士创新站,聚焦供水行业智能化转型中的“卡脖子”难题。聚焦三大难题,实现技术突破博士创新站针对供水专业术语识别不准的问题,优化Transformer架构,构建涵盖客服
2025-12-30 19:36:00
降价90%,OpenAI开放ChatGPT模型API,国内上市公司机会几何?
...用端机会;但也有观点认为,这种商业模式可能存在“卡脖子”风险,因此,国内需发展自主可控的“ChatGPT”。由此可见
2023-03-07 01:00:00
AI重塑南京钢铁产业新图景
...盾构机“京华号”……在数智化淬炼中,既要有攻克“卡脖子”技术的沸点,也需守住产业报国的恒温。近年来,南钢联合产学研用多方资源,组建战略创新共同体,集中突破钢铁行业“卡脖子”技
2025-08-08 07:14:00
更多关于科技的资讯:
山西省2026年家电以旧换新、数码和智能产品购新补贴来了!省商务厅1月8日晚上发布通告,自1月9日起,每周五10时至24时发放新一轮补贴资格
2026-01-09 08:03:00
最近,杭州市消保委联合质检专家、行业大咖,通过实测对比、数据解读等检测结果,出具选购指南,助您穿透营销迷雾,炼就“火眼金睛”
2026-01-09 07:12:00
昨日,由上城资本集团产业基金战略投资的北京智谱华章科技股份有限公司(02513.HK)(以下简称“智谱”)正式在香港联合交易所挂牌上市
2026-01-09 07:42:00
■方妮摘要:从劳动经济学视角优化战略性人力资源管理,是HR从后台职能部门向价值创造核心引擎转变的重要标志。通过对劳动经济学内涵
2026-01-09 05:02:00
随着消费者对室内空气质量的重视程度不断提升,空气净化器已成为新房装修后的必备家电之一。据中国家用电器协会发布的《2025中国洁净空气设备行业白皮书》显示
2026-01-08 23:38:00
韶音在CES 2026展示智能可穿戴生态布局:从开放式耳机到AI眼镜
在近日举行的CES 2026消费电子展上,全球开放式音频技术引领者Shokz韶音,不仅发布了开放式滤噪耳机OpenFit Pro
2026-01-08 23:40:00
中国蓝新闻讯 前不久,浙江省公布首批96家“科技新小龙”企业名单,涵盖新一代信息技术、生物医药、新材料等前沿领域。这些企业虽年轻
2026-01-08 20:27:00
中国蓝观察丨杭州也要造火箭!看商业航天在浙江开启新篇
中国蓝新闻讯 今天(1月7日),北京箭元科技有限责任公司(以下简称“箭元科技”)中大型液体运载火箭生产试验及总装总测基地正式落地浙江
2026-01-08 20:57:00
多彩贵州网讯鼠标轻点,数十公里外企业的用电异常数据实时呈现,以往需耗时多日现场排查的风险隐患,如今在几分钟内便可被系统自动识别与锁定
2026-01-08 21:59:00
江南时报讯 近年来,丹阳农商银行以“变中求进、守正创新”为主线,加快推进数字化转型,有力促进了数字金融协同发展,为普惠金融服务注入新动力
2026-01-08 22:32:00
合肥“机器人大学”新增“家庭课”:VR手把手教学,三个月“毕业”上岗
大皖新闻讯 家里乱了,谁来整理?这些日常家务,未来可能交给机器人。近日,合肥市具身智能机器人数据采集训练场在原有场景基础上
2026-01-08 18:05:00
三国何以“常青”?灵犀互娱发起游戏行业首个三国文化论坛
1月5日,中国游戏行业首个聚焦三国题材的文化论坛——“常青三国:重构、创新与全球化”在广州举行。论坛由南方周末报社与阿里巴巴灵犀互娱联合主办
2026-01-08 17:01:00
都匀佳速健诊所招新媒体运营 五险一金+弹性工作制
多彩贵州网讯(记者雷小露 裘金鉴) 为进一步扩大品牌影响力,推动科技医疗技术的广泛传播,都匀市佳速健健康管理有限公司(都匀佳速健诊所)现面向社会公开招聘新媒体运营专员1名
2026-01-08 17:05:00
【宅男财经|专家面对面】中新经纬1月7日报道称,蔚来创始人、董事长李斌表示,汽车行业和AI行业都在抢铜、银等原材料,原材料涨价还没有传导到终端售价
2026-01-08 14:13:00
中新经纬1月8日电 (谢婧雯)8日,“全球大模型第一股”智谱在港交所主板挂牌上市,发行价为每股116.20港元。智谱开盘价报120港元/股
2026-01-08 14:13:00