我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

阶跃星辰李璟：多模态是AGI的必经之路，视觉模型可按语言模型路线实现大一统

类别：科技发布时间：2025-05-17 12:05:00 来源：搜狐科技

5月17日，由搜狐主办的2025搜狐科技年度论坛在北京盛大开幕。多位院士、科学家与产业界人士齐聚一堂，激发智慧的深度碰撞，奔赴科技的星辰大海。

本届论坛线上线下结合，开启全天的思想盛宴。在上午的线上直播中，阶跃星辰副总裁李璟发表主题演讲《迎接视觉领域的GPT-4时刻》，分享了大模型技术和应用层面的思考。

他表示，今年以来大模型厂商密集的模型发布，意味着追求智能的上限仍然是当下最重要的事情。“我们始终认为多模态对AGI的实现非常重要，是实现AGI的必经之路。”

对大模型的下一步发展，李璟表示，阶跃星辰主要会在两个方向发力。一是在预训练的基础上加上强化学习，提高模型的推理能力。“强化学习还在早期，还会延续一长段时间。”

第二个趋势是多模的理解生成一体化。李璟认为，文本领域已经实现生成理解任务的统一，语言模型的技术路线也已收敛，视觉模型完全可以按照类似路线往前走。

“第一步就是做海量的图片视频的预训练，实现predict next frame（预测下一帧），这样生成出来的视频会比Sora的效果要好很多；再加上指令遵循，视觉任务就完成了大一统。”

在AI应用方面，阶跃星辰看好Agent前景。“追求AGI是我们的初心，我们会坚持基础大模型的研发。”李璟表示，阶跃星辰会坚持进行多模态的探索布局，最终形成从模型到Agent、从云侧到端侧的生态体系。

以下是演讲全文：

各位朋友大家好，我是阶跃星辰李璟，非常荣幸能够有机会参加2025搜狐科技年度论坛，代表阶跃分享我们最近在大模型技术研发，还有应用方面的一些思考与实践。

从2月份以来，国外头部的几家基础大模型厂商你追我赶，密集发布了一系列模型。我们可以清楚地感受到一个趋势，那就是追求智能的上限仍然是当下最重要的事情，也可以看出出主流的技术脉络和共性规律。

从宏观上说，模型的发展是沿着一条智能演进的路线在往前进化。两年前，阶跃成立之初为通往AGI规划的技术路线图，包括了三个阶段：模拟世界、探索世界和归纳世界。

今天我们到底在什么样的位置？结合这波密集的发布，眼下的发展呈现出两个趋势，第一个是从模仿学习到强化学习，第二个是从多模态融合走向多模态理解生成一体化。

在阶跃提出的路线图里面，模拟世界的主要范式是模仿学习，就是把互联网上的所有的数据都喂给大模型，通过预测下一个token这样的任务来学习海量数据中的结构和特征。

当学会表征世界之后，下一步就要培养机器解决问题的能力。对复杂问题的求解，人脑需要系统2的能力，就是慢思考的能力。这也是最近的推理模型，如OpenAI的o1、o3 以及DeepSeek-R1背后所采取到的技术。

智能的下一个境界，我们认为是机器通过自主学习，主动发现人类尚未发现的物理规律。这就有点像苹果砸在了牛顿的头上，发现了万有引力的定律一样。这样AI可以在生物、核能、材料、量子等各个领域和科学家一起完成创新，我们把这个阶段称为归纳世界。

去年OpenAI流传出的AGI的五个level分别Chatbot、Reasoner、Agent、Innovator和 Organization。这五个level和阶跃提的三阶段的想法基本一致，只是表述有所不同。OpenAI的系列代表模型，基本覆盖了这个路线图的各个关键节点。

同时，随着模型能力的不断增强，模型应用也从早期的Chatbot聊天机器人，到构建智能体Agent来完成复杂的任务，并且进一步从数字世界跨到物理世界，比如和智能终端和设备的结合。应用也是跟着模型能力走的，有什么样的模型决定了什么样的应用可以成熟和繁荣。

阶跃的发展也基本绕围绕着这样的路线图进行，过去两年已经建成了 Step系列的通用大模型矩阵。我们的基础模型可以分成语言模型和多模态模型，多模态又涵盖图像、视频、声音各个模态，每个模态按功能可以细分为理解模型和生成模型。

所以阶跃形成了综合全面、多模领先的基础大模型矩阵，我们始终认为多模态对AGI的实现非常重要，是实现AGI的必经之路。

首先，AGI对标的是人类智能。人的智能是多元化的，不仅来自于语言的符号智能，还包括视觉智能、空间智能、运动智能等，这些智能必须通过视觉和其他模态进行学习，任何方面出现短板都有可能延缓AGI的进程。从应用角度来看，无论是垂直领域的应用，还是C端应用，多模态往往也必不可少。

阶跃模型下一步的发展，有两个明显趋势。第一个趋势就是在预训练的基础上加上强化学习，激发模型在推理的时候产生长思维链，从而极大提高模型的推理能力。推理模型已经从一个趋势变成一个确定性的范式，阶跃预计会在未来两三个月发布满血版的推理模型Step-R1。

我们认为强化学习还在早期，还会延续一长段时间，比如推理效率的提高、奖励函数的进一步泛化、合成数据进行预训练等等，都是需要解决的热点问题，阶跃也会在这方面持续投入。

除了语言模型之外，阶跃还率先把推理能力引到了多模态领域，确切的说是视觉理解领域。引入推理能力和长思维链能力之后，视觉模型就可以更加精准的理解物理世界，很多应用都需要这样的能力。

除了推理模型之外，第二个趋势是多模的理解生成一体化，更准确地说是视觉领域的生成理解一体化。什么叫生成理解一体化？就是理解和生成用一个模型来完成。

文本领域已经做到了理解生成一体化，但在视觉领域理解需要理解模型，生成用的是生成模型。为什么一定要做生成理解一体化？因为需要理解模型来预测内容，生成需要理解来控制。

从另一个角度说，理解需要生成来监督。就像费曼说，What can I not create I do not understand。如果可以生成的话，那就说明真的理解了。

ChatGPT模型之所以产生了跨时代的理解能力，就是因为它用predict next token这样生成的任务来做监督信号，而在视觉领域并没有出现这样的predict next frame模式。到今天为止，视觉领域也并没有出现大规模的预训练来刻画物理世界的规律。

为了进一步说明理解生成一体化的这个重要性，可以先看语言模型的技术路线发展，它经历了三个重大的技术节点。首先是20117年推出了Transformer，意义是在于scalable的文本理解生成一体化模型。2020年GPT -3被训练出来了，它用互联网海量的文本数据做了预训练，从此进入到了大语言模型时代。

2022年的InstructGPT，也就是GPT -3.5，解决了指令跟随的问题，从此NLP的任务实现了大一统，一个模型搞定了所有NLP的任务。再往后就是24年底推出了推理模型，可以用长思维链思考处理复杂问题。

下一步是什么？可能是自主学习。所以，语言模型的技术路线已经收敛，视觉模型完全可以按照这个样板一步步往前走。但视觉模型在第一步就被卡住了，现在只能理解生成各自发展。

要做好视觉的理解生成一体化，第一步要做做海量的图片视频的预训练，也就是说可以 predict next frame，这样生成出来的视频会比Sora的效果要好很多。再加上指令遵循，那么视觉任务就完成了大一统，一个模型搞定所有视觉任务。

接下来做时空推理，这就会使得自动驾驶和机器人这样的应用能够上一个大台阶。当前自动驾驶和机器人问题都是泛化性不足，没见过的东西就不会做，但人如果没有经历的话，人会脑补或者演绎，或者去尝试各种action的各种结果，最后选择一个更好的。这个就需要理解生成一体化，最后加上3D 模型，加上自主学习的进化能力，我认为就是世界模型了，到了这一天也就是AGI来临了，所以多模态是AGI的必经之路。

最近在理解生成一体化上，GPT-4o的最新版是一个很重大的突破，阶跃这方面更先进的技术会在未来几个月发布。

在应用方面，眼下最热的应用概念就是Agent。很多人也会认为2025年会是Agent 的元年，为什么Agent会在眼下变得火热？我想这跟 Agent的爆发需要的两个必要条件有关，一个是多模态的能力，一个是慢思考的能力，这两个能力在2024年都取得突破性的进展。

基于自主研发的强大模型矩阵，我们跟合作伙伴一起打造了垂类的Agent以及智能终端的Agent。比如我们跟OPPO合作打造了手机Agent，跟吉利合作展示了最新的智能座舱。此外，还和具身机器人公司合作，这块目前还比较早期，需要大家非常深入密切的合作。

最后，表达三句话，第一，追求AGI是我们的初心，我们不会改变，会坚持基础大模型的研发。第二，在整个竞争格局里面，阶跃差异化的特点就是多模态能力，不仅能力在行业里面领先，也始终走在探索的前沿方向，这里面机会巨大。

在应用层面，阶跃也是差异化的道路，就是携手合作伙伴发力智能终端的Agent，最终形成从模型到Agent，从云侧到端侧的生态体系。我们认为软硬结合才能更好地理解用户的需求，完成用户的任务。

除本篇外，搜狐科技还将通过多种方式全方位呈现嘉宾们关于前沿科技发展的洞见和思考。

更多精彩内容，请关注2025搜狐科技年度论坛专题报道。

2025搜狐科技年度论坛专题PC端

2025搜狐科技年度论坛专题WAP端

文章来源：顶端新闻

文章链接：https://static.dingxinwen.com/dd-sharepage/detail/index.html?id=10496006#/返回搜狐，查看更多

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2025-05-17 15:45:01

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于模型,按语,模态,之路,必经,星辰的资讯：

【2025数博会】阶跃星辰副总裁赵海涛：多模态是通向AGI的

...通向AGI的必经之路”为主旨，分享了阶跃星辰在多模态大模型方面的前沿探索，展示了未来人机交互与产业智能化的新范式。赵海涛强调，多模态是通往AGI的必经之路。他认为AGI需要具

2025-08-31 15:51:00

阶跃星辰宣布开源图生视频模型，多模态领域的DeepSeek时

...人工智能对产业、工作、生活等方面带来的积极变化。大模型的落地应用、社区生态以及开源成为本次大会的热点话题。国内大模型“六小虎”中最为低调的上海阶跃星辰智能科技有限公司（以下简

2025-02-22 16:36:00

李彦宏：大模型场景下开源是最贵的，多模态是通往AGI的必经之

...是尽可能为大家提供所需的开发工具，这包括了1个基础模型系列和三大AI开发工具，“今天的中国，有10亿互联网用户，有强大的基础大模型，有足够多的AI应用场景，有全球最完备的产业

2024-04-16 17:57:00

周鸿祎：多模态是大模型发展的必经之路，与物联网结合是下一个风

36氪获悉，近日360智慧生活集团举办视觉大模型及AI硬件新品发布会。发布会中，360推出智脑·视觉大模型及多款AI硬件产品，并宣布360智慧生活正式切入SMB市场。360方面表

2023-06-02 01:09:00

解密星辰大模型·软件工厂软件开发迈入智能化全流程新阶段

...是最早布局 AI 领域的一家，从去年至今，从星辰语义大模型到星辰多模态大模型和星辰语音识别大模型，中国电信旗下大模型始终保持着快速迭代，且完成了语义、语音、视觉、多模态的全模

2024-07-15 19:52:00

欢瑞世纪与阶跃星辰达成战略合作，共建“麟跃”AI联合实验室

...跃”AI联合实验室，并接入阶跃星辰两款最新开源多模态模型——Step-Video-T2V视频生成模型和Step-Audio语音交互模型

2025-02-21 11:52:00

财跃星辰正式发布国内首个千亿参数多模态金融大模型

...自：文汇报本报讯国内首个千亿参数多模态金融大模型——“财跃F1金融大模型”于昨天在2024全球开发者先锋大会上正式发布。这款由上海财跃星辰智能科技有限公司研

2024-03-24 04:26:00

对话旷视科技唐文斌：应用落地是衡量大模型价值的最高标准

中新经纬7月8日电 (常涛)由ChatGPT引发的大模型热潮还在持续，在6日开幕的2023世界人工智能大会(下称大会)上，大模型站上“C位”。对于大模型的未来发展图景，用户亦充满

2023-07-08 10:48:00

界面财联社入局AI，国内首个千亿参数多模态金融大模型面市

...：人民日报客户端曹玲娟国内首个千亿参数多模态金融大模型——“财跃F1金融大模型”3月23日在2024全球开发者先锋大会（GDC）上首发。该大模型由财跃星辰自研推出，上海报业集

2024-03-24 00:30:00

更多关于科技的资讯：

dynabook效能之选TECRA A45-M：AMD锐龙芯

在商务办公的疆场中，一台兼具稳定性能、可靠品质与高效体验的笔记本，是精英们破局攻坚的核心装备。dynabook作为深耕商务领域数十年的专业品牌

2025-12-18 10:08:00

厦门制订专项扶持政策发展人工智能产业

厦门网讯（厦门日报记者李晓平）昨日，市工信局党组成员、副局长上官峰做客市政府网在线访谈，深入介绍了我市人工智能产业的发展态势

2025-12-18 08:58:00

固安加速“屏”实力出圈

12月10日，固安县汉旗电子科技有限公司员工进行生产数据传输作业。固安县推动显示产业做强做精通过“龙头引领+全链配套+区域协同”三维驱动实现产业向生态集群跨越式发展为县域经济高质量发展注入强劲动能12月10日

2025-12-18 07:56:00

高校体育教学中趣味化教学模式的应用研究

吴俊邑海南师范大学体育学院摘要：随着素质教育的深入推进，高校体育教学面临着提升教学质量、激发学生运动兴趣的重要任务。趣味化教学模式作为打破传统体育教学枯燥性的有效手段

2025-12-18 06:38:00

国际项目进度控制对贸易合同履行效率的影响分析

崔福荣摘要：进度控制在国际工程项目管理中具有至关重要的作用，直接影响项目的工期、成本和合同履行效率。随着全球化和国际项目的增多

2025-12-18 06:38:00

杭州锻造智能网联汽车“世界级地标”

云路协同杭州日报讯钱塘区的清晨，吉利钱塘基地焊装车间里数百台机械臂精准舞动，不到两分钟就有一台智能新车下线；桐庐的乡村道路上

2025-12-18 06:53:00

上城鸿鹄汇重新定义AI时代创业新范式

“一人独角兽” 不再遥远！3个月，500份申请，27位“超级个体”入驻杭州日报讯胡政涛带着一台电脑和他的项目，走进了杭州东站旁的融信中心13层

2025-12-18 06:53:00

中国煤科太原研究院自主研发智能矿用干式除尘系统投用

发展新质生产力推进新型工业化中国煤科太原研究院12月17日发布消息，该院自主研发的智能矿用干式除尘系统在宁夏煤业10余个矿井投用

2025-12-18 07:16:00

常州供电首创跨站模拟带负荷试验——新装备助力新设备“入职体检

近日，在江苏常州220千伏淦西变电站与220千伏永和变电站，国网常州供电公司二次检修人员利用自主研发的“变电站站间电流互感器一次通流同步测试仪”

2025-12-17 23:18:00

AI 工具赋能品牌：开启全新增长引擎

因为Deepseek的流行，2025年被称作中国AI智能体元年。在这股AI浪潮之下，许多品牌建设者是既兴奋又焦虑，兴奋的是新变革意味着新机遇

2025-12-17 08:09:00

2025“平安财萌杯”全国总决赛在深落幕，携手11万大学生共

近日，2025“平安财萌杯”大学生财经素养大赛全国总决赛在深圳平安金融中心圆满举行。本届大赛自8月启动以来，共吸引了来自清华大学

2025-12-17 08:39:00

建行泰安分行“商叶云贷”线上直播活动圆满举办

鲁网12月16日讯近日，经过数月的精心筹备，建行泰安分行营业部成功举办首场“商叶云贷”专题直播推介会。本次活动精准覆盖全市19000户烟草零售商户

2025-12-17 09:24:00

“替身经济”：代劳，不是那么简单

东南网12月17日报道（福建日报记者黄星榕）买了乐高等大型积木却没有时间和耐心拼装，想吃家常菜却苦于时间不够、厨艺不精

2025-12-17 14:02:00

《威图可再生能源行业解决方案》发布：严苛环境下的设备应用指南

从零下45℃的严寒到零上50℃的炙烤，从沙漠风沙到海上盐雾……在能源转型的浪潮席卷全球之际，中国可再生能源产业正以令人瞩目的速度发展

2025-12-17 14:11:00

4000+工程师竞技收官，第三届威图卓越工程师大赛圆满落幕

在智能化浪潮持续重塑工业格局的今天，人才的系统化能力与创新思维已成为驱动产业升级的核心要素。作为全球控制柜与开关柜智能制造领域的领导者

2025-12-17 14:11:00

头条订阅服务

阶跃星辰李璟：多模态是AGI的必经之路，视觉模型可按语言模型路线实现大一统