• 我的订阅
  • 科技

Sora是如何实现1分钟一镜到底?

类别:科技 发布时间:2024-02-21 01:42:00 来源:每日看点快看

本文转自:扬子晚报

Sora是如何实现1分钟一镜到底?

OpenAI推出新款文生视频工具Sora,记者实测其真正实力

Sora是如何实现1分钟一镜到底?

Sora是如何实现1分钟一镜到底?

开发出热门聊天机器人ChatGPT后,OpenAI继续在生成式人工智能上玩出新花样。2月16日,OpenAI推出新的AI大模型Sora,该文生视频大模型可通过快速文本提示创建“逼真”和“富有想象力”的60秒视频。

Sora一推出立即引发业内外广泛关注。许多人预测,这一创新技术将彻底颠覆AI视频领域。为了探究Sora的真正实力,扬子晚报/紫牛新闻记者进行了实测对比。

扬子晚报/紫牛新闻记者 姜天圣

记者实测

Sora与Runway比较

在本次测试中,我们选择了目前业界领先的文生视频模型Runway作为参照。目前Runway有三个功能,分别为“根据文字生成视频(文生视频)”“根据图片生成视频”“根据图片及文字生成视频”。由于Sora只开放了文生视频功能,所以本次对比测试仅针对这个功能。

第一个测试的描述为“Step-printing scene of a person running, cinematic film shot in 35mm.(用35毫米胶片拍摄出的单人跑者)”,记者将这段描述输入Runway,生成多个4秒钟的视频。从反馈结果来看,Runway生成视频全部带有胶片特效,可见Runway已能够理解并生成胶片拍出的视频效果。

但Sora表现“惊为天人”,在同样描述Sora给出的视频中,跑者动作十分自然,几乎看不出关节处变形的情况,一眼看去几乎乱真,而且Sora输出视频时长达17秒。

那如果给到的描述再多一些,生成的对象也由人变成相对简单的机械呢?第二段测试的描述为,“The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. ”(镜头跟随在一辆带黑色车顶行李架的白色复古SUV后面,它在陡峭的山坡上加速行驶在一条被松树包围的陡峭土路上,轮胎上的灰尘飞溅,阳光照射在SUV上,有着温暖的光芒。)

和上面一样,Runway的视频只有4秒,并且只有一个场景,而Sora生成的视频长达20秒,且细节方面处理得更好,当然瑕疵也有,Sora生成的这辆SUV没有受到路面影响,有点像漂浮行走。

结论

现有模型更像是会动的图片 而Sora是真正意义上的视频

总结一下,现有的文生视频模型Runway在理解人类语言上基本没问题,并且能够准确地按要求生成视频,但它只能生成4秒的视频,并且在处理复杂动作(例如跑步)时会崩,相比视频,它生成的更像是一张会动的图片(只能有一个镜头)。

而Sora在细节处理上更胜一筹,在镜头切换、衔接上已经远超Runway的水准。不过,记者在测试中发现Sora视频也存在一些问题,比如跑步机的质感太差、跑步机上跑垫是静止的、人物头发过渡不自然等。

由于Sora还未以公开形式开放,本次对比中Sora生成的视频都是其官网提供的,而Runway生成的视频则是记者经多次生成,然后在其中择优选择。

揭秘

1、Sora将颠覆电影拍摄的现有方式

当其他工具还在努力保持单镜头稳定时,Sora已经丝滑实现多镜头的无缝切换,且镜头切换的连贯性和对象的一致性效果都遥遥领先,堪称“降维打击”。在过去,要拍摄这样一段视频可能需要耗费大量时间和精力进行剧本创作、分镜头设计等一系列繁琐的工作。而现在,仅需一段简单的文本描述,Sora就能彻底生成这样的大场面,相关从业者或许已经开始瑟瑟发抖了。

如同搭积木般组合视频

那么,Sora是怎么实现强大效果的?OpenAI 引入了视觉块嵌入代码(patches),这是一种高度可扩展且有效的视觉数据表现形式,能够极大提升生成模型处理多样化视频和图像数据的能力。此外,OpenAI 还训练了一个解码器模型,能够将这些潜在表征还原为像素级的视频图像。

采用基于patchs的表现形式,Sora能够适应不同分辨率、持续时间及宽高比的视频和图像,在生成新视频内容时,可以通过将这些随机初始化的patchs按照需要的大小排列成网格,来控制最终视频的大小和形式。

尽管上述原理听起来颇为复杂,但实际上 OpenAI 所用的这项新技术——视觉块嵌入代码(简称视觉块)——就好比是将一堆杂乱无章的积木整理好放入一个小盒子中。如此一来,即便面对众多积木,只要找到了这个小盒子就能轻松找到所需积木。

由于视频数据被转化为了一个个小方块的形式,当OpenAI向Sora提供一个新的视频任务时,它们首先会从该视频中提取出一些包含时间和空间信息的小方块。随后将这些小方块交给Sora让其根据这些信息生成新的视频。这样就可以像拼拼图一样,把视频重新组合起来。这样做的好处是,计算机可以更快地学习和处理各种不同类型的图片和视频。

传统的影视制作流程将被重塑

通过文本指令,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。这意味着,继文本、图像之后,OpenAI将其先进的AI技术拓展到了视频领域。OpenAI表示,Sora是能够理解和模拟现实世界的模型的基础,这一能力将是实现AGI(通用人工智能)的重要里程碑,有人振奋地表示“我们真的看到新工业革命来临”。

生成式AI过去已积累了不少图像、声音等素材,并通过不断学习形成了更为成熟的算法。因此,若是可以通过AI在计算机中创建视频素材,或许将对影视行业产生重大影响。

从事影视行业近20年的周辉如今是影像创意科技企业北京天工异彩影视科技有限公司的副总裁兼CTO。他认为,Sora生成的视频质量足够震撼,可以缩短电影拍摄周期。未来,一部小说也许就能生成一部影视作品,电影生产方式本身的高壁垒和独断性会被打破。特效、摄影、灯光等传统工种在AI之下不具备优势,但AI生成视频也会带来新的分工,但影视行业的大部分从业人员都没有充分准备好Sora带来的影响。 综 合

2、Sora创始团队中有位南师附中校友

Sora的爆火,让其背后的创始团队备受关注,据悉,有多位华人参与其中。记者获悉,团队中的Ricky Wang中文名王宇,是南京师范大学附属中学2013届的毕业生,考入加州大学伯克利分校就读本科,曾供职过Meta、Instagram等多家公司。

2月20日,记者联系了南京师范大学附属中学,学校证实了此事。据了解,王宇于2010年进入南师附中就读,2013年考入加州大学伯克利分校。记者尝试联系王宇,但其本人表示不便接受采访。有网友表示,王宇是江苏人,年轻有为,在Meta工作时有不少华人工程师与他共事过。

据Sora团队成员的履历显示,这支团队共13人,成立时间非常短,不少人入职时间都未超过1年,而王宇则是2024年1月刚刚入职。根据领英信息,团队中有两人去年刚刚博士毕业,还有一位“00”后,本科毕业后,同样于今年1月加入团队。

扬子晚报网/紫牛新闻记者 刘浏

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-02-21 05:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

赛道正在变得拥挤 腾讯混元大模型杀入文生视频 让用户 “用起来”是关键
...2月4日讯(记者 张洋洋)昨日,腾讯混元大模型正式上线视频生成能力,这是继文生文、文生图、3D生成之后,混元大模型的最新业务进展。与此同时,腾讯开源该视频生成大模型,参数量1
2024-12-04 09:56:00
曾经搅动A股的明星视频生成应用Pika又“杀”回来了。近日,Pika官宣已完成总额8000万美元的B轮融资,此轮融资后
2024-06-11 00:10:00
“杜甫很忙”梗图变视频!智谱AI生成视频模型上线
7月26日,智谱AI CEO张鹏在智谱Open Day上宣布,AI生成视频模型清影(Ying)正式上线智谱清言。南都记者关注到
2024-07-27 14:18:00
视频生成大模型sora和可灵的区别在哪里?
...可能仅一线之隔。Sora之后,它的挑战者前赴后继。6月,视频生成大模型迎来又一轮新品爆发,生成式AI赛道像是“过年了”
2024-06-26 14:27:00
文生视频让自动驾驶看到新方向
...自:广州日报港科大(广州)人工智能专家陈颖聪:文生视频让自动驾驶看到新方向来源:视觉中国陈颖聪近年来,生成式人工智能在AI技术应用中成为焦点,尤其是文本生成视频大模型Sora
2024-03-14 05:26:00
谷歌推出“文生视频”扩散模型
...29日消息,谷歌研究院日前推出了一款名为Lumiere的“文生视频”扩散模型,主打采用自家最新开发的“Space-TimeU-Net”基础架构
2024-01-29 11:15:00
Sora概念引爆A股!谁在布局AI视频
ChatGPT风潮未过,OpenAI近日再放“大招”,发布文生视频模型Sora,再度点燃了A股的热情。2月19日,相关概念股集体大涨
2024-02-19 20:50:00
文生视频大模型,短视频的过弯点?
随着今年初Sora的横空出世,这个可以创建长达一分钟视频的文生视频模型就成为了国内厂商追逐的焦点。6月初,快手自研的视频生成大模型“可灵”正式上线。可灵AI采用了与Sora相似的
2024-07-30 14:08:00
...本文转自:广州日报2月16日凌晨,OpenAI突然发布首个文生视频模型Sora,其横空出世对AI大模型行业无疑是继ChatGPT之后的又一次大震动
2024-02-23 04:01:00
更多关于科技的资讯:
河北新闻网讯(崔梦露)1月8日下午,平安产险唐山中心支公司通过抖音、微信视频号、平安好车主、平安好生活等四大线上平台,举办“开年迎好运家家有平安”直播活动
2026-01-09 21:11:00
在全球制造业向高质量升级的浪潮下,超高压技术正成为破解多行业性能瓶颈的关键支撑。作为全球超高压领域标杆企业,Quintus专注于超高压技术的研发与应用
2026-01-10 20:59:00
为规范互联网应用程序个人信息收集使用活动,保护个人信息权益,促进个人信息合理利用,根据《中华人民共和国网络安全法》《中华人民共和国个人信息保护法》《网络数据安全管理条例》等法律法规
2026-01-10 21:56:00
浙江造,红遍中国年!万事利春晚红围巾成“新年硬通货”
随着2026马年临近,一条承载马年春晚吉祥寓意的红围巾,正成为年末备受瞩目的新春佳礼。作为总台文创官方合作品牌,万事利丝绸匠心推出的“骐骥驰骋”系列围巾与丝巾
2026-01-10 21:02:00
摄像头自动识违规!雄安的这个工地很“智慧”
1月4日上午,雄安新区启动区中国中化大厦二期项目施工现场,一个安装在工地入口的摄像头缓缓转动。当镜头捕捉到两名未按规定穿戴反光背心的工人走向施工区域时
2026-01-10 17:01:00
年货陆续上架 春节“品质年味”一键备齐
离春节还有月余,我市各大超市的年货节已摩拳擦掌,准备登场。1月9日下午,永辉超市发布了2026年货节战略,本届年货节以“新永辉新年味”为核心主题
2026-01-10 17:54:00
西电杜敬利教授团队为太空天线装上“智能神经” 助其保持最佳形态
在距离地球数百乃至数万公里的太空中,大型空间可展开天线如同一把把缓缓张开的“巨伞”,肩负着通信、遥感、深空探测等重要使命
2026-01-10 19:17:00
济宁移动圆满完成邹城福特纵横跨年联谊活动通信保障
鲁网1月10日讯2025年12月31日,邹城福特纵横公园跨年联谊活动热闹启幕。济宁移动以专业保障护航欢乐时光,圆满完成此次活动通信支撑任务
2026-01-10 15:41:00
乌山时评|“晓风”再起 拂动人心
近日,一则令不少书友激动的消息传遍福州人的朋友圈——晓风书屋即将在鼓屏路旧址重启。为何“晓风”再起,依旧能拂动人心?要知道
2026-01-10 08:14:00
厦门网讯(厦门日报记者 何无痕)当前,招聘市场的“AI味”越来越浓。近日,记者调查发现,如今企业不再依赖传统的选才,开始尝试更智能
2026-01-10 08:30:00
@杭州人,你的信用能换钱了!
最近,杭州人的“信用幸福指数”又上涨了!信用消费专区在杭州市民卡App上线,用户凭钱江分就能享受信用消费折扣、体验低空文旅的乐趣
2026-01-10 09:19:00
新春雅集 财安相伴——邮储银行VIP客户插花暨金融反诈便民活动温馨启幕
近日,邮储银行高新区支行以花为媒、以情相连,精心举办“花漾时光·金融护航”VIP客户专属插花沙龙活动,活动将花艺美学体验
2026-01-10 09:51:00
中亦科技以 IT 运维筑牢半导体产业增长之基
最近,半导体行业的目光都聚焦在一条“疯狂”的曲线上:内存价格。这绝非一次简单的周期性波动。深层驱动力是以人工智能应用落地引发的“以存代算”技术范式革命
2026-01-10 09:51:00
1月8日,贵州省商务厅发布《关于发放家电产品以旧换新、数码和智能产品购新活动补贴券相关事项的公告》(下称《公告》),明确2026年贵州家电产品以旧换新
2026-01-09 23:02:00
人工智能、物联网与5G技术的成熟迭代,让智能家居家电产品从高端小众走向大众消费,成为现代家庭标配。近日,江苏省消费者权益保护委员会发布专项调查报告
2026-01-09 17:10:00