我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

Sora爆火96小时国内大模型进场

类别：科技发布时间：2024-02-20 05:20:00 来源：每日看点快看

本文转自：解放日报

Sora爆火96小时国内大模型进场

专家认为，国内企业想弯道超车难度不小

查睿

OpenAI“文字生成视频”大模型Sora根据提示词“纽约市像亚特兰蒂斯一样被淹没。鱼、鲸鱼、海龟和鲨鱼在纽约的街道上游弋”生成的20秒视频。视频截图 ■Sora不仅可以理解用户的需求，还知道这些事物在现实世界如何存在

■视频生成需要处理和预测长时间跨度内的动作和场景变化，增加了模型复杂度

■Sora的角色更多是赋能创作者，而不是替代他们提供实现创意愿景的新途径

本报记者查睿

春节期间，大洋彼岸又放出大招——美国人工智能团队OpenAI发布“文字生成视频”大模型Sora，特别是官方公布的长达60秒未经修改的AI视频，引发业界极大的震撼，网友惊呼“现实不存在了”。

发布短短96个小时内，国内已有AI团队紧急上线相关“文字生成视频”大模型，但与国外主流AI视频模型能力相仿，均无法超越Sora的水平。

“Sora能力超乎预期，但仍未达到颠覆行业的水平。”专家指出，AI生成视频技术仍有门槛，国内企业想弯道超车面临不小的难度。

碾压同行

2月16日，谷歌发布新一代多模态大模型Gemini 1.5 Pro，在性能上超越OpenAI的GPT-4 Turbo，堪称业界最强大模型。然而，OpenAI在同一日发布Sora大模型，风头直接盖过谷歌，仅需通过文本即可自动生成视频，这也是继文本模型ChatGPT和图片模型Dall-E之后，又一极具颠覆性的大模型产品。

Sora并非首个文本生成视频的大模型。据不完全统计，截至去年年底，全球能实现文本生成视频的大模型包括 Runway、Pika、Stable Video Diffusion等20多个产品。Sora的诞生仍给业界带来不小的震撼，它所展现出来的能力几乎可用“碾压”来形容。

用户仅需输入简短一句话，Sora就可生成一段长达60秒的视频，远远超过市面上同类型级别的AI视频生成时长。在此之前，AI视频模型生成时长几乎在10秒以内，而“明星模型” Runway和Pika等也仅有3到4秒。

60秒的视频时长，已超过抖音等短视频平台的平均视频时长，Sora的诞生也为以后短视频平台的内容生产提供了更大的可能性。

Sora保证视频时长的同时，也加强了视频质量的稳定性。记者体验此前的AI生成视频时发现，即便是几秒钟的视频也并不连贯，有较强的拼凑感。而Sora几乎能做到60秒视频一镜到底，OpenAI的演示视频显示，一名时尚女性走过喧闹繁华的东京街头，无论是背景建筑和街道以及人像的逼真程度，都保持一致性，哪怕是各种镜头的蒙太奇，都没有出现明显的失真情况。

OpenAI在官方博客中写道，Sora不仅可以理解用户的需求，还知道这些事物在现实世界如何存在。这离不开OpenAI在文本和图像方面的长期积累。

上海市人工智能行业协会秘书长钟俊浩解释，Sora的训练依赖于大量带有文本标题的视频数据。OpenAI利用Dall-E 3中的标题生成技术，为视频生成高质量的文本标题，以此提高文本和视频数据之间的对齐度。在大规模训练过程中，Sora展示了一些“涌现的模拟能力”，如三维一致性、长距离连贯性、物体持久性以及与世界互动的能力等。这些能力表明Sora能够在一定程度上模拟物理世界和数字世界的人物、动物和环境。

用哔哩哔哩科技Up主“Git源宝”的话来说，OpenAI先拆解大量的视频素材，并将文字与视频做匹配对应，之后又进行密集训练，使Sora拥有自主生成视频的能力。

挑战不少

虽然技术令人惊艳，但Sora的视频生成能力并不完美。已披露的视频显示，不少素材仍会“一眼假”，不符合物理学规律等AI生成的Bug（漏洞）不少。

以“幼狼玩耍”视频为例，Sora生成的内容中出现漏洞：在嬉戏打闹中，幼狼的数量从3只到5只来回变换，虽然动作连贯，但戏法般的效果让人摸不到头脑。另外在“一个老人吹蜡烛”的指令下，Sora生成的视频却显示，老人对着生日蛋糕的蜡烛吹气，却没有一根蜡烛熄灭；在呈现“红酒杯在桌上摔碎”的镜头中，杯子摔碎前，红酒已洒满桌子，“先摔碎后洒酒”的逻辑，Sora也没有理解。

或许是考虑到性能、安全等问题，Sora并未向公众开放，目前处于安全测试阶段。据外媒预测，GPT-4经过6个月的测试后正式向公众开放，预计Sora将于8月向公众开放。

在钟俊浩眼中，Sora面临的技术挑战仍不少，特别是与文本对话和图片生成相比，训练成本高昂、高质量数据集的缺乏以及视频描述的模糊性都将是Sora需要跨越的门槛。

“视频生成需要处理和预测长时间跨度内的动作和场景变化，这增加了模型的复杂度和训练的计算需求。”他认为，与文本和图像相比，适用于视频生成的多模态高质量数据集相对较少，这限制了模型学习复杂动作语义的能力，不仅如此，描述视频内容比描述静态图像复杂，因为它需要包括时间上的变化、动作以及可能的情感或故事线索。

值得一提的是，在Sora发布的同时，OpenAI宣布一项要约售股交易，由此OpenAI整体估值高达800亿美元，一年内飙升两倍多。根据调研公司CB Insights统计，OpenAI已成为全球估值最高的创业公司之一，仅次于字节跳动和SpaceX。

难言颠覆

Sora的横空出世引爆学界、业界和投资界的讨论热度。

短短4天内，中信建投、国泰君安、申万宏源、招商证券等10家券商在研报中均表示，Sora是人工智能发展进程中的里程碑，预示AGI（人工通用智能）将加速到来，众多行业将迎来颠覆式变革。

天风证券认为，内容创作工作流有望被颠覆，下一个亿级用户的互联网平台雏形出现。2000亿美元的短视频创作生态有望率先被颠覆，生成式AI在视频创作和世界模型的大踏步进步将实现对视频、3D、游戏等下游应用场景的渗透。

中信证券从投资角度判断，Sora背后的涌现能力为自动驾驶、设计等需要现实世界建模的行业提供了明确方向，硬件端的需求必然会随着多模态的技术进步不断提高，因此AI算力持续看好。

“Sora让人震惊，很大原因是AI的发展速度远超预期。但不意味着短时间能形成生产力。”钟俊浩认为，Sora现在能力还不足以颠覆行业，特别是影视行业和游戏行业高度依赖创意、情感投入和人类故事讲述的领域。AI视频生成技术可以提供帮助，比如降低制作成本、加速内容生成，甚至在某些情境下提供创意灵感，但目前还不能完全替代人类在创作过程中的独特视角和情感深度。“Sora的角色更多是赋能创作者，而不是替代他们提供实现创意愿景的新途径。”

根据观察，Sora的文本到视频生成技术难以进行精细的局部调整。如果用户希望修改视频中的某个具体细节，可能需要进行复杂的手工编辑，不仅工作量大，而且也要求用户具备一定的视频编辑技能。同时，Sora每次生成的视频内容有较大变化，难以保持一致的叙事风格或视觉风格。“即便是60秒超长视频，也无法满足大部分影视作品需求，将多个短视频片段拼接起来，在转场的协调和连贯性上也是额外挑战。”钟俊浩说。

游戏开始

Sora出手即“王炸”，AI生成视频创业公司无疑将面临巨大压力。Runway CEO瓦伦祖拉在社交媒体写道“Game On（游戏开始了）”，Stability CEO莫斯塔克由衷夸赞“奥特曼（OpenAI CEO）真是个魔术师”。而由华人郭文景创立的Pika Labs也感受到巨大冲击力，去年11月发布Pika，能够生成和编辑3D动画、动漫、卡通和电影，是一款零门槛的视频生成器，她向媒体透露，团队如今正准备招人，直接对标Sora。

今年1月，字节跳动也发布了MagicVideo-V2文生视频模型，通过文生图大模型先生成一张符合当前输入文本的图片，然后使用图片与文本描述利用图生成视频模型生成简单的视频，并使用视频到视频模型，对当前的视频进行超分辨率技术合成，让视频更清晰细腻。

前几日，阿里云旗下魔搭社区（ModelScope）上线文本生成视频大模型。记者从阿里云方面了解到，这是第三方创作者上传的作品，目前由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成，整体模型参数约17亿，仅支持英文输入。文本生成视频大模型已面向公众开放，与Sora类似可直接输入文字即可看到生成的视频效果，目前已公布9个官方案例。比如“A panda eating bamboo on a rock”，将出现2秒钟“大熊猫在石头上吃竹子”的视频。

不过这一大模型并不成熟，记者以类似的“A panda dancing（跳舞的大熊猫）”为例，生成2秒钟的视频耗时长达32分钟，且输出的视频与“吃竹子的大熊猫”没有太大区别。

北京社会科学院副研究员王鹏告诉记者，尽管国内大模型近年来取得显著进展，但与OpenAI、谷歌、英伟达等国际大公司相比，仍存在技术差距。这些国际大公司在深度学习、自然语言处理、计算机视觉等领域拥有更深厚的技术积累和研发实力，在AIGC领域具有更强的竞争力。

“国内企业要迎头赶上，需要在技术研发、人才培养和市场洞察上下功夫，同时还要考虑到国内外市场的差异性和合规性问题。”人工智能行业天使投资人郭涛认为，国内AI企业不妨与成熟技术团队建立战略合作，共享技术资源，针对国内市场需求，进行产品和应用创新，实现弯道超车。

上海机会

“现在上海有些公司正在进行‘从一张图到另一张图生成中间视频’的大模型产品研发，比如上海人工智能企业重点孵化器‘AI驿站’中的小冰公司、笔墨AI等企业。”钟俊浩说，上海在技术研发、人才培养、数据资源、算力资源等方面与国际大公司存在不小差距。“追上Sora的能力需要时间，这不仅取决于技术投入和研发速度，还需要考虑行业生态的建设。”

他认为，OpenAI目前在竞争力上一骑绝尘，中国要在AI领域追赶，首先依然靠人才，鼓励行业高密度聚集，避免人才分散，也避免智能算力等稀缺资源分散。上海应发挥全产业链生态优势，鼓励行业结合，尤其在智能制造、机器人等领域，整合不同行业的技术和市场资源。同时，鼓励相关企业、研究机构和教育机构在特定区域聚集，以促进知识共享、人才流动和资源高效利用。通过政策引导和资源配置，集中力量攻克关键技术难题。

上海在大模型领域的发展正迅速推进，目前已成为国内在人工智能和大模型研发上的重镇。根据《上海市推动人工智能大模型创新发展若干措施（2023—2025年）》，上海将加快打造世界级人工智能产业集群，这些措施包括支持大模型的创新能力、提升创新要素供给能级、推进大模型的创新应用，以及营造一流的创新环境。

目前，徐汇区建立了全国首个以大模型、产业生态集聚发展为功能定位的产业生态空间。全国首批备案通过的8个大模型中，上海占三席，徐汇区集聚了全国近25%的大模型企业和项目，在全国大模型领域处于领先水平。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-02-20 09:45:02

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于模型,小时,视频,模型,生成,文本的资讯：

字节版Sora火爆24小时，同名论文再次被热议

...憋了个大的——一口气推出Seaweed和PixelDance两款豆包视频模型，支持文生/图生视频，时长可达10s。以PixelDance为例

2024-09-26 13:41:00

文生视频让自动驾驶看到新方向

...工智能在AI技术应用中成为焦点，尤其是文本生成视频大模型Sora，近来更是在全球范围内激发了科技创新的热潮。香港科技大学（广州）人工智能学领域助理教授兼博士生导师陈颖聪教授，

2024-03-14 05:26:00

2022生成模型进展有多快，新论文盘点9类生成模型代表作

ChatGPT的出现，彻底将生成AI推向爆发。但别忘了，AI生成模型可不止ChatGPT一个，光是基于文本输入的就有7种——图像

2023-01-30 16:34:00

智谱AI发布视频生成大模型，B站参与研发，亦庄提供算力｜甲子

视频大模型进入百模大战。今年是“视频生成”大模型爆发元年。在过去两个月，我们看到了快手可灵、商汤Vimi、Luma AI

2024-07-27 09:30:00

Meta版Sora深夜横空出世，小扎放出16秒高清大片！92

...、上传图像生成个性化视频。甚至Meta还放出了92页论文，模型架构、训练细节一并公开，干货满满！毫无预兆地，Meta版Sora——Movie Gen

2024-10-08 09:52:00

刚刚，重磅发布！阿里、腾讯、科大讯飞在列

...首批公开的算法备案清单。值得注意的是，此次名单中大模型算法并不多，除了百度PLATO大模型算法和讯飞星火认知大模型算法之外，阿里的多模态算法达摩院交互式多能型合成算法也在列。

2023-06-20 17:00:00

智谱AI版Sora开源！首个可商用，在线可玩，5小时GitH

...卷疯了。就在刚刚，智谱AI直接把清影视频生成背后的大模型给开源了。而且是首个可商用的那种哦！这个模型的名字叫做CogVideoX

2024-08-07 09:31:00

首发根据音频生成 4K 分辨率 1 小时长视频，复旦、百度联

...息，复旦大学和百度联合开发了一款名为 Hallo2的全新 AI 模型，该模型可以生成长达数小时的 4K 分辨率人物动画

2024-10-22 09:49:00

更快、更强、更可控：智谱“起舞弄清影”，视频生成卷出新高度！

...作为智谱清言打造的视频创作智能体，清影依托于智谱大模型团队自研打造的视频生成大模型CogVideoX，现已支持文生视频、图生视频多个能力，让用户“自助式”地完成艺术视频创作，

2024-07-27 10:00:00

更多关于科技的资讯：

稳” “进” “新” ——3个关键词读懂南京经济前三季度“成

□南京日报/紫金山新闻记者张甜甜通讯员夏俊林娜10月31日，南京市统计局、国家统计局南京调查队发布南京经济“三季报”

2025-11-01 09:44:00

上海虹桥医院癫痫专病诊疗新高度：个性化方案，全程化守护

癫痫发作的不可预测性及其对记忆、情绪、社交、学业与工作等方面的深远影响，构成了广大患者面临的核心挑战。诊断的复杂、治疗方案的普适性困境以及持续管理的缺失

2025-11-01 10:05:00

第十季炒股大赛冠军诞生：光伏逆变器行业龙头涨幅登顶

在《大众证券报》读者俱乐部第十季炒股比赛中，选手“馨小憩”以159.84元/股推荐的阳光电源(300274)，荐股涨幅19

2025-11-01 11:00:00

秦皇岛经开区：国内首款真空高压铸造人形机器人骨骼零部件下线

近日，国内首款真空高压铸造人形机器人腿部骨骼零部件在中信戴卡股份有限公司研制成功并生产下线，首批20件量产产品已发往国内客户

2025-11-01 11:10:00

爆款AI笔记本是如何“炼成”的？双十一，记者带你探厂

视频制作：陈希河北新闻网讯（记者李春炜）随着AI技术飞速发展，在今年的双十一期间，AI笔记本也成为爆款产品。近日，记者走进安徽合肥的联想PC设备研发和制造基地

2025-11-01 15:39:00

版权赋能创新发展 “版权强企燕赵行”活动走进高阳

10月30日，“版权强企燕赵行”活动走进保定市高阳县。活动通过进企问需、校企对接、版权法律法规科普、版权服务平台及版权区块链平台推介等方式

2025-11-01 15:47:00

荣膺金辑奖双料大奖东软赋能全球汽车产业智能化变革

10月30日，在由盖世汽车主办的2025第七届“金辑奖”颁奖盛典上，东软集团凭借在智能汽车互联领域持续的产品创新与卓越的全球化实践

2025-11-01 16:16:00

钻戒定制怎么选？2025五大宝藏品牌全解析，一篇避坑

准备结婚选钻戒，却被天然钻的高价劝退？想入手培育钻戒，又怕遇到“参数虚标”“售后无保障”的问题？2025年培育钻石市场规模突破300亿元

2025-11-01 16:17:00

第三十七届中国仿真大会在合肥市庐阳区召开

大皖新闻讯 11月1日，第三十七届中国仿真大会在合肥市庐阳区召开，大会以“数智仿真、新质发展”为主题，吸引全国约千名学者与业界代表

2025-11-02 00:04:00

“科大讯飞1024科博展”亮点抢先看！现场黑科技拉满，免费开

大皖新闻讯想让AI陪你对弈吗？想穿越时空与孙悟空来场“智慧交锋”吗？第八届世界声博会暨2025科大讯飞全球1024开发者节科博展将于11月2日至6日在合肥体育中心启幕

2025-11-02 00:04:00

出海再提速！锦江酒店（中国区）宣布旗下7天酒店出海，同日签约

锦江酒店（中国区）规模化出海再次迎来关键节点。10月31日，其于深圳正式宣布，国民品牌7天酒店将进军东南亚市场。这是继今年8月底

2025-11-01 10:02:00

拓宽合作渠道深化技术创新山西电机亮相亚洲国际展会

10月28日，亚洲国际动力传动与控制技术展览会(PTC ASIA 2025)在上海新国际博览中心启幕。近1800家海内外知名展商齐聚

2025-11-01 07:03:00

正式发布！视源股份牵头制定《娱乐用车载显示系统图像质量技术规

2025年10月23日，在全国音频、视频及多媒体系统与设备标准化技术委员会（SAC/TC 242）商用显示标准研究组第六次全会暨标准研讨会上

2025-10-31 08:20:00

中感集团煤仓安全综合解决方案亮相中国国际煤炭采矿展，以系统性

在北京举行的第21届中国国际煤炭采矿技术交流与设备展览会上，中感集团创新展示的“煤仓安全综合解决方案”引发行业高度关注

2025-10-31 08:51:00

人工智能产业决胜与 Data&AI 数据基础设施建设——科杰

2025中国国际数字经济博览会在石家庄国际会展中心开幕。科杰科技董事长于洋受邀出席2025首席数据官峰会论坛,并作主题为《人工智能产业决胜与 Data&

2025-10-31 08:51:00

头条订阅服务

Sora爆火96小时国内大模型进场