• 我的订阅
  • 科技

Sora是如何实现1分钟一镜到底?

类别:科技 发布时间:2024-02-21 01:42:00 来源:每日看点快看

本文转自:扬子晚报

Sora是如何实现1分钟一镜到底?

OpenAI推出新款文生视频工具Sora,记者实测其真正实力

Sora是如何实现1分钟一镜到底?

Sora是如何实现1分钟一镜到底?

开发出热门聊天机器人ChatGPT后,OpenAI继续在生成式人工智能上玩出新花样。2月16日,OpenAI推出新的AI大模型Sora,该文生视频大模型可通过快速文本提示创建“逼真”和“富有想象力”的60秒视频。

Sora一推出立即引发业内外广泛关注。许多人预测,这一创新技术将彻底颠覆AI视频领域。为了探究Sora的真正实力,扬子晚报/紫牛新闻记者进行了实测对比。

扬子晚报/紫牛新闻记者 姜天圣

记者实测

Sora与Runway比较

在本次测试中,我们选择了目前业界领先的文生视频模型Runway作为参照。目前Runway有三个功能,分别为“根据文字生成视频(文生视频)”“根据图片生成视频”“根据图片及文字生成视频”。由于Sora只开放了文生视频功能,所以本次对比测试仅针对这个功能。

第一个测试的描述为“Step-printing scene of a person running, cinematic film shot in 35mm.(用35毫米胶片拍摄出的单人跑者)”,记者将这段描述输入Runway,生成多个4秒钟的视频。从反馈结果来看,Runway生成视频全部带有胶片特效,可见Runway已能够理解并生成胶片拍出的视频效果。

但Sora表现“惊为天人”,在同样描述Sora给出的视频中,跑者动作十分自然,几乎看不出关节处变形的情况,一眼看去几乎乱真,而且Sora输出视频时长达17秒。

那如果给到的描述再多一些,生成的对象也由人变成相对简单的机械呢?第二段测试的描述为,“The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. ”(镜头跟随在一辆带黑色车顶行李架的白色复古SUV后面,它在陡峭的山坡上加速行驶在一条被松树包围的陡峭土路上,轮胎上的灰尘飞溅,阳光照射在SUV上,有着温暖的光芒。)

和上面一样,Runway的视频只有4秒,并且只有一个场景,而Sora生成的视频长达20秒,且细节方面处理得更好,当然瑕疵也有,Sora生成的这辆SUV没有受到路面影响,有点像漂浮行走。

结论

现有模型更像是会动的图片 而Sora是真正意义上的视频

总结一下,现有的文生视频模型Runway在理解人类语言上基本没问题,并且能够准确地按要求生成视频,但它只能生成4秒的视频,并且在处理复杂动作(例如跑步)时会崩,相比视频,它生成的更像是一张会动的图片(只能有一个镜头)。

而Sora在细节处理上更胜一筹,在镜头切换、衔接上已经远超Runway的水准。不过,记者在测试中发现Sora视频也存在一些问题,比如跑步机的质感太差、跑步机上跑垫是静止的、人物头发过渡不自然等。

由于Sora还未以公开形式开放,本次对比中Sora生成的视频都是其官网提供的,而Runway生成的视频则是记者经多次生成,然后在其中择优选择。

揭秘

1、Sora将颠覆电影拍摄的现有方式

当其他工具还在努力保持单镜头稳定时,Sora已经丝滑实现多镜头的无缝切换,且镜头切换的连贯性和对象的一致性效果都遥遥领先,堪称“降维打击”。在过去,要拍摄这样一段视频可能需要耗费大量时间和精力进行剧本创作、分镜头设计等一系列繁琐的工作。而现在,仅需一段简单的文本描述,Sora就能彻底生成这样的大场面,相关从业者或许已经开始瑟瑟发抖了。

如同搭积木般组合视频

那么,Sora是怎么实现强大效果的?OpenAI 引入了视觉块嵌入代码(patches),这是一种高度可扩展且有效的视觉数据表现形式,能够极大提升生成模型处理多样化视频和图像数据的能力。此外,OpenAI 还训练了一个解码器模型,能够将这些潜在表征还原为像素级的视频图像。

采用基于patchs的表现形式,Sora能够适应不同分辨率、持续时间及宽高比的视频和图像,在生成新视频内容时,可以通过将这些随机初始化的patchs按照需要的大小排列成网格,来控制最终视频的大小和形式。

尽管上述原理听起来颇为复杂,但实际上 OpenAI 所用的这项新技术——视觉块嵌入代码(简称视觉块)——就好比是将一堆杂乱无章的积木整理好放入一个小盒子中。如此一来,即便面对众多积木,只要找到了这个小盒子就能轻松找到所需积木。

由于视频数据被转化为了一个个小方块的形式,当OpenAI向Sora提供一个新的视频任务时,它们首先会从该视频中提取出一些包含时间和空间信息的小方块。随后将这些小方块交给Sora让其根据这些信息生成新的视频。这样就可以像拼拼图一样,把视频重新组合起来。这样做的好处是,计算机可以更快地学习和处理各种不同类型的图片和视频。

传统的影视制作流程将被重塑

通过文本指令,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。这意味着,继文本、图像之后,OpenAI将其先进的AI技术拓展到了视频领域。OpenAI表示,Sora是能够理解和模拟现实世界的模型的基础,这一能力将是实现AGI(通用人工智能)的重要里程碑,有人振奋地表示“我们真的看到新工业革命来临”。

生成式AI过去已积累了不少图像、声音等素材,并通过不断学习形成了更为成熟的算法。因此,若是可以通过AI在计算机中创建视频素材,或许将对影视行业产生重大影响。

从事影视行业近20年的周辉如今是影像创意科技企业北京天工异彩影视科技有限公司的副总裁兼CTO。他认为,Sora生成的视频质量足够震撼,可以缩短电影拍摄周期。未来,一部小说也许就能生成一部影视作品,电影生产方式本身的高壁垒和独断性会被打破。特效、摄影、灯光等传统工种在AI之下不具备优势,但AI生成视频也会带来新的分工,但影视行业的大部分从业人员都没有充分准备好Sora带来的影响。 综 合

2、Sora创始团队中有位南师附中校友

Sora的爆火,让其背后的创始团队备受关注,据悉,有多位华人参与其中。记者获悉,团队中的Ricky Wang中文名王宇,是南京师范大学附属中学2013届的毕业生,考入加州大学伯克利分校就读本科,曾供职过Meta、Instagram等多家公司。

2月20日,记者联系了南京师范大学附属中学,学校证实了此事。据了解,王宇于2010年进入南师附中就读,2013年考入加州大学伯克利分校。记者尝试联系王宇,但其本人表示不便接受采访。有网友表示,王宇是江苏人,年轻有为,在Meta工作时有不少华人工程师与他共事过。

据Sora团队成员的履历显示,这支团队共13人,成立时间非常短,不少人入职时间都未超过1年,而王宇则是2024年1月刚刚入职。根据领英信息,团队中有两人去年刚刚博士毕业,还有一位“00”后,本科毕业后,同样于今年1月加入团队。

扬子晚报网/紫牛新闻记者 刘浏

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-02-21 05:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

谷歌推出“文生视频”扩散模型
...29日消息,谷歌研究院日前推出了一款名为Lumiere的“文生视频”扩散模型,主打采用自家最新开发的“Space-TimeU-Net”基础架构
2024-01-29 11:15:00
文生视频让自动驾驶看到新方向
...自:广州日报港科大(广州)人工智能专家陈颖聪:文生视频让自动驾驶看到新方向来源:视觉中国陈颖聪近年来,生成式人工智能在AI技术应用中成为焦点,尤其是文本生成视频大模型Sora
2024-03-14 05:26:00
Sora概念引爆A股!谁在布局AI视频
ChatGPT风潮未过,OpenAI近日再放“大招”,发布文生视频模型Sora,再度点燃了A股的热情。2月19日,相关概念股集体大涨
2024-02-19 20:50:00
...本文转自:广州日报2月16日凌晨,OpenAI突然发布首个文生视频模型Sora,其横空出世对AI大模型行业无疑是继ChatGPT之后的又一次大震动
2024-02-23 04:01:00
Sora冲击波 抢人“饭碗”促生新职业?
2月19日,春节后第一个交易日,Sora相关概念(文生视频)股集体走高,会畅通讯、C易点、当虹科技、因赛集团、万兴科技20CM涨停,华扬联众、新国脉、新华网涨停封板。在文生视频的
2024-03-02 09:59:00
万兴科技AIGC概念迷雾:60秒文生视频能力遭质疑,开月薪10万招AI人才
图源:天幕文生样板视频截图Sora爆火两月之后,国内迅速有A股上市公司做出跟进,推出同样具备文生视频能力的多媒体大模型。4月28日,A股数字创意软件龙头万兴科技(300624.S
2024-05-07 11:13:00
Sora冲击波
...春节,OpenAI再投一颗“深水炸弹”,毫无预兆发布的文生视频模型Sora,让AI圈又一次“一夜变天”。一是时长,二是逼真程度,Sora实现了两个老大难问题的同时解决,以至于
2024-02-19 00:15:00
OpenAI发布文生视频模型Sora,奥尔特曼选取网友提示词
...16日凌晨,OpenAI再次扔出一枚深水炸弹,发布了首个文生视频模型Sora。据介绍,Sora可以直接输出长达60秒的视频
2024-02-16 18:44:00
马斯克说人类愿赌服输!OpenAI首个文生视频模型炸街,哪些行业又将颠覆
Sora生成视频展示 澎湃新闻编辑 秦盛(03:23)人工智能(AI)巨头OpenAI在龙年伊始就扔出了杀手锏。当地时间2月15日
2024-02-16 19:23:00
更多关于科技的资讯: