• 我的订阅
  • 科技

阶跃星辰李璟:多模态是AGI的必经之路,视觉模型可按语言模型路线实现大一统

类别:科技 发布时间:2025-05-17 12:05:00 来源:搜狐科技

阶跃星辰李璟:多模态是AGI的必经之路,视觉模型可按语言模型路线实现大一统

5月17日,由搜狐主办的2025搜狐科技年度论坛在北京盛大开幕。多位院士、科学家与产业界人士齐聚一堂,激发智慧的深度碰撞,奔赴科技的星辰大海。

本届论坛线上线下结合,开启全天的思想盛宴。在上午的线上直播中,阶跃星辰副总裁李璟发表主题演讲《迎接视觉领域的GPT-4时刻》,分享了大模型技术和应用层面的思考。

他表示,今年以来大模型厂商密集的模型发布,意味着追求智能的上限仍然是当下最重要的事情。“我们始终认为多模态对AGI的实现非常重要,是实现AGI的必经之路。”

对大模型的下一步发展,李璟表示,阶跃星辰主要会在两个方向发力。一是在预训练的基础上加上强化学习,提高模型的推理能力。“强化学习还在早期,还会延续一长段时间。”

第二个趋势是多模的理解生成一体化。李璟认为,文本领域已经实现生成理解任务的统一,语言模型的技术路线也已收敛,视觉模型完全可以按照类似路线往前走。

“第一步就是做海量的图片视频的预训练,实现predict next frame(预测下一帧),这样生成出来的视频会比Sora的效果要好很多;再加上指令遵循,视觉任务就完成了大一统。”

在AI应用方面,阶跃星辰看好Agent前景。“追求AGI是我们的初心,我们会坚持基础大模型的研发。”李璟表示,阶跃星辰会坚持进行多模态的探索布局,最终形成从模型到Agent、从云侧到端侧的生态体系。

阶跃星辰李璟:多模态是AGI的必经之路,视觉模型可按语言模型路线实现大一统

以下是演讲全文:

各位朋友大家好,我是阶跃星辰李璟,非常荣幸能够有机会参加2025搜狐科技年度论坛,代表阶跃分享我们最近在大模型技术研发,还有应用方面的一些思考与实践。

从2月份以来,国外头部的几家基础大模型厂商你追我赶,密集发布了一系列模型。我们可以清楚地感受到一个趋势,那就是追求智能的上限仍然是当下最重要的事情,也可以看出出主流的技术脉络和共性规律。

从宏观上说,模型的发展是沿着一条智能演进的路线在往前进化。两年前,阶跃成立之初为通往AGI规划的技术路线图,包括了三个阶段:模拟世界、探索世界和归纳世界。

今天我们到底在什么样的位置?结合这波密集的发布,眼下的发展呈现出两个趋势,第一个是从模仿学习到强化学习,第二个是从多模态融合走向多模态理解生成一体化。

在阶跃提出的路线图里面,模拟世界的主要范式是模仿学习,就是把互联网上的所有的数据都喂给大模型,通过预测下一个token这样的任务来学习海量数据中的结构和特征。

当学会表征世界之后,下一步就要培养机器解决问题的能力。对复杂问题的求解,人脑需要系统2的能力,就是慢思考的能力。这也是最近的推理模型,如OpenAI的o1、o3 以及DeepSeek-R1背后所采取到的技术。

智能的下一个境界,我们认为是机器通过自主学习,主动发现人类尚未发现的物理规律。这就有点像苹果砸在了牛顿的头上,发现了万有引力的定律一样。这样AI可以在生物、核能、材料、量子等各个领域和科学家一起完成创新,我们把这个阶段称为归纳世界。

去年OpenAI流传出的AGI的五个level分别Chatbot、Reasoner、Agent、Innovator和 Organization。这五个level和阶跃提的三阶段的想法基本一致,只是表述有所不同。OpenAI的系列代表模型,基本覆盖了这个路线图的各个关键节点。

同时,随着模型能力的不断增强,模型应用也从早期的Chatbot聊天机器人,到构建智能体Agent来完成复杂的任务,并且进一步从数字世界跨到物理世界,比如和智能终端和设备的结合。应用也是跟着模型能力走的,有什么样的模型决定了什么样的应用可以成熟和繁荣。

阶跃的发展也基本绕围绕着这样的路线图进行,过去两年已经建成了 Step系列的通用大模型矩阵。我们的基础模型可以分成语言模型和多模态模型,多模态又涵盖图像、视频、声音各个模态,每个模态按功能可以细分为理解模型和生成模型。

所以阶跃形成了综合全面、多模领先的基础大模型矩阵,我们始终认为多模态对AGI的实现非常重要,是实现AGI的必经之路。

首先,AGI对标的是人类智能。人的智能是多元化的,不仅来自于语言的符号智能,还包括视觉智能、空间智能、运动智能等,这些智能必须通过视觉和其他模态进行学习,任何方面出现短板都有可能延缓AGI的进程。从应用角度来看,无论是垂直领域的应用,还是C端应用,多模态往往也必不可少。

阶跃模型下一步的发展,有两个明显趋势。第一个趋势就是在预训练的基础上加上强化学习,激发模型在推理的时候产生长思维链,从而极大提高模型的推理能力。推理模型已经从一个趋势变成一个确定性的范式,阶跃预计会在未来两三个月发布满血版的推理模型Step-R1。

我们认为强化学习还在早期,还会延续一长段时间,比如推理效率的提高、奖励函数的进一步泛化、合成数据进行预训练等等,都是需要解决的热点问题,阶跃也会在这方面持续投入。

除了语言模型之外,阶跃还率先把推理能力引到了多模态领域,确切的说是视觉理解领域。引入推理能力和长思维链能力之后,视觉模型就可以更加精准的理解物理世界,很多应用都需要这样的能力。

除了推理模型之外,第二个趋势是多模的理解生成一体化,更准确地说是视觉领域的生成理解一体化。什么叫生成理解一体化?就是理解和生成用一个模型来完成。

文本领域已经做到了理解生成一体化,但在视觉领域理解需要理解模型,生成用的是生成模型。为什么一定要做生成理解一体化?因为需要理解模型来预测内容,生成需要理解来控制。

从另一个角度说,理解需要生成来监督。就像费曼说,What can I not create I do not understand。如果可以生成的话,那就说明真的理解了。

ChatGPT模型之所以产生了跨时代的理解能力,就是因为它用predict next token这样生成的任务来做监督信号,而在视觉领域并没有出现这样的predict next frame模式。到今天为止,视觉领域也并没有出现大规模的预训练来刻画物理世界的规律。

为了进一步说明理解生成一体化的这个重要性,可以先看语言模型的技术路线发展,它经历了三个重大的技术节点。首先是20117年推出了Transformer,意义是在于scalable的文本理解生成一体化模型。2020年GPT -3被训练出来了,它用互联网海量的文本数据做了预训练,从此进入到了大语言模型时代。

2022年的InstructGPT,也就是GPT -3.5,解决了指令跟随的问题,从此NLP的任务实现了大一统,一个模型搞定了所有NLP的任务。再往后就是24年底推出了推理模型,可以用长思维链思考处理复杂问题。

下一步是什么?可能是自主学习。所以,语言模型的技术路线已经收敛,视觉模型完全可以按照这个样板一步步往前走。但视觉模型在第一步就被卡住了,现在只能理解生成各自发展。

要做好视觉的理解生成一体化,第一步要做做海量的图片视频的预训练,也就是说可以 predict next frame,这样生成出来的视频会比Sora的效果要好很多。再加上指令遵循,那么视觉任务就完成了大一统,一个模型搞定所有视觉任务。

接下来做时空推理,这就会使得自动驾驶和机器人这样的应用能够上一个大台阶。当前自动驾驶和机器人问题都是泛化性不足,没见过的东西就不会做,但人如果没有经历的话,人会脑补或者演绎,或者去尝试各种action的各种结果,最后选择一个更好的。这个就需要理解生成一体化,最后加上3D 模型,加上自主学习的进化能力,我认为就是世界模型了,到了这一天也就是AGI来临了,所以多模态是AGI的必经之路。

最近在理解生成一体化上,GPT-4o的最新版是一个很重大的突破,阶跃这方面更先进的技术会在未来几个月发布。

在应用方面,眼下最热的应用概念就是Agent。很多人也会认为2025年会是Agent 的元年,为什么Agent会在眼下变得火热?我想这跟 Agent的爆发需要的两个必要条件有关,一个是多模态的能力,一个是慢思考的能力,这两个能力在2024年都取得突破性的进展。

基于自主研发的强大模型矩阵,我们跟合作伙伴一起打造了垂类的Agent以及智能终端的Agent。比如我们跟OPPO合作打造了手机Agent,跟吉利合作展示了最新的智能座舱。此外,还和具身机器人公司合作,这块目前还比较早期,需要大家非常深入密切的合作。

最后,表达三句话,第一,追求AGI是我们的初心,我们不会改变,会坚持基础大模型的研发。第二,在整个竞争格局里面,阶跃差异化的特点就是多模态能力,不仅能力在行业里面领先,也始终走在探索的前沿方向,这里面机会巨大。

在应用层面,阶跃也是差异化的道路,就是携手合作伙伴发力智能终端的Agent,最终形成从模型到Agent,从云侧到端侧的生态体系。我们认为软硬结合才能更好地理解用户的需求,完成用户的任务。

除本篇外,搜狐科技还将通过多种方式全方位呈现嘉宾们关于前沿科技发展的洞见和思考。

更多精彩内容,请关注2025搜狐科技年度论坛专题报道。

2025搜狐科技年度论坛专题PC端

2025搜狐科技年度论坛专题WAP端

文章来源:顶端新闻

文章链接:https://static.dingxinwen.com/dd-sharepage/detail/index.html?id=10496006#/返回搜狐,查看更多

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-05-17 15:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

阶跃星辰宣布开源图生视频模型,多模态领域的DeepSeek时刻何时来?
...人工智能对产业、工作、生活等方面带来的积极变化。大模型的落地应用、社区生态以及开源成为本次大会的热点话题。国内大模型“六小虎”中最为低调的上海阶跃星辰智能科技有限公司(以下简
2025-02-22 16:36:00
李彦宏:大模型场景下开源是最贵的,多模态是通往AGI的必经之路
...是尽可能为大家提供所需的开发工具,这包括了1个基础模型系列和三大AI开发工具,“今天的中国,有10亿互联网用户,有强大的基础大模型,有足够多的AI应用场景,有全球最完备的产业
2024-04-16 17:57:00
36氪获悉,近日360智慧生活集团举办视觉大模型及AI硬件新品发布会。发布会中,360推出智脑·视觉大模型及多款AI硬件产品,并宣布360智慧生活正式切入SMB市场。360方面表
2023-06-02 01:09:00
解密星辰大模型·软件工厂 软件开发迈入智能化全流程新阶段
...是最早布局 AI 领域的一家,从去年至今,从星辰语义大模型到星辰多模态大模型和星辰语音识别大模型,中国电信旗下大模型始终保持着快速迭代,且完成了语义、语音、视觉、多模态的全模
2024-07-15 19:52:00
欢瑞世纪与阶跃星辰达成战略合作,共建“麟跃”AI联合实验室
...跃”AI联合实验室,并接入阶跃星辰两款最新开源多模态模型——Step-Video-T2V视频生成模型和Step-Audio语音交互模型
2025-02-21 11:52:00
...自:文汇报 本报讯 国内首个千亿参数多模态金融大模型——“财跃F1金融大模型”于昨天在2024全球开发者先锋大会上正式发布。这款由上海财跃星辰智能科技有限公司研
2024-03-24 04:26:00
中新经纬7月8日电 (常涛)由ChatGPT引发的大模型热潮还在持续,在6日开幕的2023世界人工智能大会(下称大会)上,大模型站上“C位”。对于大模型的未来发展图景,用户亦充满
2023-07-08 10:48:00
...:人民日报客户端曹玲娟国内首个千亿参数多模态金融大模型——“财跃F1金融大模型”3月23日在2024全球开发者先锋大会(GDC)上首发。该大模型由财跃星辰自研推出,上海报业集
2024-03-24 00:30:00
阶跃星辰CEO姜大昕:强化学习不是AI的尽头,下一步是自主学习,Agent将成超级应用
...工智能(AGI),觉得这是一个遥不可及的梦想。但随着大模型的飞速进步,今天越来越多的人开始相信AGI在未来的几年就会成为现实。”2月21日下午,阶跃星辰创始人&CEO
2025-02-21 16:10:00
更多关于科技的资讯:
7年前的iPhone,凭什么被炒成千元神机
跳票N年的苹果首款折叠屏iPhone,终于又有了点眉目。近日,继折叠屏iPhone“将于2025年三季度末或四季度初投产”的传言后
2025-08-03 17:09:00
生产未动、订单先行!仰华汽车科技四大产业基地即将落地贵州
8月1日,仰华汽车科技在贵阳经开区举行发布会,会上与香港投资机构完成投资交接、与海外企业签下首批国际订单,意味着总投资超三十亿的汽车项目离落地贵阳更近了一步
2025-08-03 18:02:00
闪铸科技AD5M连续12月蝉联亚马逊销冠,中国3D打印品牌闪耀全球
在竞争激烈的全球3D打印市场中,中国品牌闪铸科技(Flashforge)凭借强劲的研发实力与持续创新力,再次刷新国际成绩单
2025-08-03 18:33:00
准大学生成为十堰数码市场消费主力军
十堰广电讯(全媒体记者 魏俊 何旭)高考结束后,相关消费持续升温,准大学生拉动“后高考经济”,带动手机、电脑等入学装备销量激增
2025-08-03 19:01:00
网易云音乐独家打造BLACKPINK快闪空间 出道九周年庆典同步开启
2025年8月2日,全球顶级艺人BLACKPINK官宣入驻网易云音乐,并通过独家中文笔记向平台乐迷分享了最新动态。YG娱乐联合CASTER STAR
2025-08-03 15:23:00
物业公司打起来了,一边撤场一边“抢地盘”
现在围绕物业问题产生的冲突越来越多。物业公司一边主动从一些小区“撤场”,引发行业对规模化增长和利润的担心,一边又发力在存量小区“拓盘”
2025-08-03 08:47:00
中国品牌出海,如何在不确定中锚定“确定”?2025出海大会嘉宾超级金句来了!
2025年7月25日, 2025出海大会在浙江钱塘成功举办。本届大会以「以“匠心”至“世界”」为主题,特设主会场及分会场“投资金砖”-国别合作对接会
2025-08-03 08:49:00
录取比例超过20比1,全球学霸为何千里迢迢来西湖“追星”?
这个暑假,西湖大学的校园里掀起一股特殊的“追星潮”——数百名来自全球多个国家和地区的青年学子,跨越山海奔赴杭州,只为近距离接触生命科学
2025-08-03 08:47:00
年入558亿,中国便利店之王,竟然是它
提起便利店大家脑海中出现的第一个名字是什么?罗森、7-11还是全家,可能每个人的答案都不一样。但如果是广东的朋友,那么答案一定是#美宜佳
2025-08-03 05:41:00
运动品牌营销细分,潮流基因强化圈层认同|世研消费指数品牌榜Vol.56
本次监测周期内,安踏、耐克和斐乐以1.86、1.70、1.68的综合热度位列榜单综合热度前三。图源:世研大消费指数国货运动品牌场景痛点精准拆解
2025-08-03 05:41:00
最没存在感的河北特产,悄悄统治江浙沪?
提到河北衡水,估计不少人脑子里先冒出来的,是让全国学生闻风丧胆的衡水中学,以及一瓶名叫老白干的白酒。但在这两张耀眼名片外
2025-08-03 06:43:00
华立工业园:制造企业落脚海外的“工业唐人街”
过去一百多年来,唐人街是中国移民在海外聚居形成的经济和文化社区,往往也是新移民踏上陌生土地后落脚的第一站。对于许多刚刚“走出去”的中国制造企业
2025-08-03 06:43:00
对话蚂蚁集团张俊杰:AI 如何重塑医疗健康产业?
当大模型从技术奇点跃迁为产业基座,当智能体从实验室走进产线诊室,人工智能的第三次浪潮正以前所未有的锐度重构全球经济肌理
2025-08-03 06:45:00
让机器人拥有智能触觉,「悟通感控」获数千万元融资 | 36氪独家
36氪获悉,柔性触觉感知科技公司「悟通感控」近日完成数千万元系列融资:Pre-A轮由尚势资本领投、水木创投跟投;Pre-A+轮由广发基金瑞元资本领投
2025-08-03 06:45:00
打工人的终极难题:快乐和健康,我都想要
年轻人的「肠胃焦虑」新解法。撰文|J封面图源|《她的城》剧照在这个讲求效率与速度的时代,年轻人似乎比任何时候都更懂健康的重要
2025-08-03 06:45:00