• 我的订阅
  • 科技

Sora是如何实现1分钟一镜到底?

类别:科技 发布时间:2024-02-21 01:42:00 来源:每日看点快看

本文转自:扬子晚报

Sora是如何实现1分钟一镜到底?

OpenAI推出新款文生视频工具Sora,记者实测其真正实力

Sora是如何实现1分钟一镜到底?

Sora是如何实现1分钟一镜到底?

开发出热门聊天机器人ChatGPT后,OpenAI继续在生成式人工智能上玩出新花样。2月16日,OpenAI推出新的AI大模型Sora,该文生视频大模型可通过快速文本提示创建“逼真”和“富有想象力”的60秒视频。

Sora一推出立即引发业内外广泛关注。许多人预测,这一创新技术将彻底颠覆AI视频领域。为了探究Sora的真正实力,扬子晚报/紫牛新闻记者进行了实测对比。

扬子晚报/紫牛新闻记者 姜天圣

记者实测

Sora与Runway比较

在本次测试中,我们选择了目前业界领先的文生视频模型Runway作为参照。目前Runway有三个功能,分别为“根据文字生成视频(文生视频)”“根据图片生成视频”“根据图片及文字生成视频”。由于Sora只开放了文生视频功能,所以本次对比测试仅针对这个功能。

第一个测试的描述为“Step-printing scene of a person running, cinematic film shot in 35mm.(用35毫米胶片拍摄出的单人跑者)”,记者将这段描述输入Runway,生成多个4秒钟的视频。从反馈结果来看,Runway生成视频全部带有胶片特效,可见Runway已能够理解并生成胶片拍出的视频效果。

但Sora表现“惊为天人”,在同样描述Sora给出的视频中,跑者动作十分自然,几乎看不出关节处变形的情况,一眼看去几乎乱真,而且Sora输出视频时长达17秒。

那如果给到的描述再多一些,生成的对象也由人变成相对简单的机械呢?第二段测试的描述为,“The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. ”(镜头跟随在一辆带黑色车顶行李架的白色复古SUV后面,它在陡峭的山坡上加速行驶在一条被松树包围的陡峭土路上,轮胎上的灰尘飞溅,阳光照射在SUV上,有着温暖的光芒。)

和上面一样,Runway的视频只有4秒,并且只有一个场景,而Sora生成的视频长达20秒,且细节方面处理得更好,当然瑕疵也有,Sora生成的这辆SUV没有受到路面影响,有点像漂浮行走。

结论

现有模型更像是会动的图片 而Sora是真正意义上的视频

总结一下,现有的文生视频模型Runway在理解人类语言上基本没问题,并且能够准确地按要求生成视频,但它只能生成4秒的视频,并且在处理复杂动作(例如跑步)时会崩,相比视频,它生成的更像是一张会动的图片(只能有一个镜头)。

而Sora在细节处理上更胜一筹,在镜头切换、衔接上已经远超Runway的水准。不过,记者在测试中发现Sora视频也存在一些问题,比如跑步机的质感太差、跑步机上跑垫是静止的、人物头发过渡不自然等。

由于Sora还未以公开形式开放,本次对比中Sora生成的视频都是其官网提供的,而Runway生成的视频则是记者经多次生成,然后在其中择优选择。

揭秘

1、Sora将颠覆电影拍摄的现有方式

当其他工具还在努力保持单镜头稳定时,Sora已经丝滑实现多镜头的无缝切换,且镜头切换的连贯性和对象的一致性效果都遥遥领先,堪称“降维打击”。在过去,要拍摄这样一段视频可能需要耗费大量时间和精力进行剧本创作、分镜头设计等一系列繁琐的工作。而现在,仅需一段简单的文本描述,Sora就能彻底生成这样的大场面,相关从业者或许已经开始瑟瑟发抖了。

如同搭积木般组合视频

那么,Sora是怎么实现强大效果的?OpenAI 引入了视觉块嵌入代码(patches),这是一种高度可扩展且有效的视觉数据表现形式,能够极大提升生成模型处理多样化视频和图像数据的能力。此外,OpenAI 还训练了一个解码器模型,能够将这些潜在表征还原为像素级的视频图像。

采用基于patchs的表现形式,Sora能够适应不同分辨率、持续时间及宽高比的视频和图像,在生成新视频内容时,可以通过将这些随机初始化的patchs按照需要的大小排列成网格,来控制最终视频的大小和形式。

尽管上述原理听起来颇为复杂,但实际上 OpenAI 所用的这项新技术——视觉块嵌入代码(简称视觉块)——就好比是将一堆杂乱无章的积木整理好放入一个小盒子中。如此一来,即便面对众多积木,只要找到了这个小盒子就能轻松找到所需积木。

由于视频数据被转化为了一个个小方块的形式,当OpenAI向Sora提供一个新的视频任务时,它们首先会从该视频中提取出一些包含时间和空间信息的小方块。随后将这些小方块交给Sora让其根据这些信息生成新的视频。这样就可以像拼拼图一样,把视频重新组合起来。这样做的好处是,计算机可以更快地学习和处理各种不同类型的图片和视频。

传统的影视制作流程将被重塑

通过文本指令,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。这意味着,继文本、图像之后,OpenAI将其先进的AI技术拓展到了视频领域。OpenAI表示,Sora是能够理解和模拟现实世界的模型的基础,这一能力将是实现AGI(通用人工智能)的重要里程碑,有人振奋地表示“我们真的看到新工业革命来临”。

生成式AI过去已积累了不少图像、声音等素材,并通过不断学习形成了更为成熟的算法。因此,若是可以通过AI在计算机中创建视频素材,或许将对影视行业产生重大影响。

从事影视行业近20年的周辉如今是影像创意科技企业北京天工异彩影视科技有限公司的副总裁兼CTO。他认为,Sora生成的视频质量足够震撼,可以缩短电影拍摄周期。未来,一部小说也许就能生成一部影视作品,电影生产方式本身的高壁垒和独断性会被打破。特效、摄影、灯光等传统工种在AI之下不具备优势,但AI生成视频也会带来新的分工,但影视行业的大部分从业人员都没有充分准备好Sora带来的影响。 综 合

2、Sora创始团队中有位南师附中校友

Sora的爆火,让其背后的创始团队备受关注,据悉,有多位华人参与其中。记者获悉,团队中的Ricky Wang中文名王宇,是南京师范大学附属中学2013届的毕业生,考入加州大学伯克利分校就读本科,曾供职过Meta、Instagram等多家公司。

2月20日,记者联系了南京师范大学附属中学,学校证实了此事。据了解,王宇于2010年进入南师附中就读,2013年考入加州大学伯克利分校。记者尝试联系王宇,但其本人表示不便接受采访。有网友表示,王宇是江苏人,年轻有为,在Meta工作时有不少华人工程师与他共事过。

据Sora团队成员的履历显示,这支团队共13人,成立时间非常短,不少人入职时间都未超过1年,而王宇则是2024年1月刚刚入职。根据领英信息,团队中有两人去年刚刚博士毕业,还有一位“00”后,本科毕业后,同样于今年1月加入团队。

扬子晚报网/紫牛新闻记者 刘浏

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-02-21 05:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

赛道正在变得拥挤 腾讯混元大模型杀入文生视频 让用户 “用起来”是关键
...2月4日讯(记者 张洋洋)昨日,腾讯混元大模型正式上线视频生成能力,这是继文生文、文生图、3D生成之后,混元大模型的最新业务进展。与此同时,腾讯开源该视频生成大模型,参数量1
2024-12-04 09:56:00
曾经搅动A股的明星视频生成应用Pika又“杀”回来了。近日,Pika官宣已完成总额8000万美元的B轮融资,此轮融资后
2024-06-11 00:10:00
“杜甫很忙”梗图变视频!智谱AI生成视频模型上线
7月26日,智谱AI CEO张鹏在智谱Open Day上宣布,AI生成视频模型清影(Ying)正式上线智谱清言。南都记者关注到
2024-07-27 14:18:00
视频生成大模型sora和可灵的区别在哪里?
...可能仅一线之隔。Sora之后,它的挑战者前赴后继。6月,视频生成大模型迎来又一轮新品爆发,生成式AI赛道像是“过年了”
2024-06-26 14:27:00
文生视频让自动驾驶看到新方向
...自:广州日报港科大(广州)人工智能专家陈颖聪:文生视频让自动驾驶看到新方向来源:视觉中国陈颖聪近年来,生成式人工智能在AI技术应用中成为焦点,尤其是文本生成视频大模型Sora
2024-03-14 05:26:00
谷歌推出“文生视频”扩散模型
...29日消息,谷歌研究院日前推出了一款名为Lumiere的“文生视频”扩散模型,主打采用自家最新开发的“Space-TimeU-Net”基础架构
2024-01-29 11:15:00
Sora概念引爆A股!谁在布局AI视频
ChatGPT风潮未过,OpenAI近日再放“大招”,发布文生视频模型Sora,再度点燃了A股的热情。2月19日,相关概念股集体大涨
2024-02-19 20:50:00
文生视频大模型,短视频的过弯点?
随着今年初Sora的横空出世,这个可以创建长达一分钟视频的文生视频模型就成为了国内厂商追逐的焦点。6月初,快手自研的视频生成大模型“可灵”正式上线。可灵AI采用了与Sora相似的
2024-07-30 14:08:00
...本文转自:广州日报2月16日凌晨,OpenAI突然发布首个文生视频模型Sora,其横空出世对AI大模型行业无疑是继ChatGPT之后的又一次大震动
2024-02-23 04:01:00
更多关于科技的资讯:
打破“禁戒定理” 中国科大提出不需要共同参考系的分布式量子传感协议
大皖新闻讯 “这种反向编码协议,打破了由于共同参考系缺失造成的‘禁戒定理’。”相关人员表示。2月1日,大皖新闻记者从中国科学技术大学获悉
2026-02-01 19:36:00
商报讯 近日,钱江世纪城2025“世纪云想”第五届新锐成长企业年度路演成功举办。活动以“赋能成长、洞见未来”为核心,吸引来自电商
2026-02-01 08:32:00
河北日报讯(见习记者康晓博、李畅)1月31日,2026年雄安新区“人工智能+”创新生态系列活动举办。活动现场,清华大学与稳准智能(雄安)科技有限公司(以下简称“稳准智能”)联合研发的“极数”数据大模型(LimiX)发布最新成果与战略规划
2026-02-01 07:45:00
“公交医生”用心守护 保障乘客畅行新春
随着新春的脚步日益临近,城市公交迎来了全年运营的高峰期。在保障车辆安全高效运转的链条上,车间维修团队是不可或缺的“技术核心”
2026-01-31 18:06:00
从赛事领奖台到春晚舞台,松延动力勾勒人形机器人产业新图景
1月29日,中央广播电视总台与松延动力联合宣布,松延动力成为总台《2026年春节联欢晚会》人形机器人合作伙伴。松延动力表示
2026-01-31 17:05:00
百度智能云:800多家金融机构的首选“AI搭子”
大模型在金融行业的落地节奏正在加快。1月31日消息,根据近期媒体对2025年公开市场大模型相关招投标信息的统计,金融行业全年大模型中标项目达587个
2026-01-31 17:05:00
高顿咨询财务进化论年度峰会暨AI白皮书重磅发布
高顿咨询财务进化论年度峰会暨AI白皮书发布会于2026年1月23日在上海隆重启幕。来自AI财务领域的学界专家、企业高管汇聚一堂
2026-01-31 17:06:00
导演王晶短剧公司落地河南 称今年要拍100部精品
大河网讯 近日,香港导演王晶现身郑州,为其担任总监制、总编剧的微短剧《澳城风云》主持开机仪式,标志其正式进军河南微短剧产业
2026-01-31 16:34:00
大润发东营首店亮相东城万达广场
鲁网1月31日讯2026年1月30日,大润发东营首店正式落户东营东城万达广场。该店践行“线上线下融合”的新零售战略,线上平台“大润发优鲜”已率先运营
2026-01-31 13:04:00
元梦空间2026马上元梦嘉年华大会即将在蓉举办,开启元宇宙“虚实共生”新纪元
2026年2月3日,一场以“马上元梦·数字新生”为主题的元宇宙行业盛典——元梦空间2026马上元梦嘉年华大会,将在四川成都隆重举行
2026-01-31 08:57:00
零基础学烘焙,2026年1月郑州靠谱的蛋糕培训机构有哪些?
想在郑州学做蛋糕,却不知道选哪家?是零基础想扎实学技能,还是打算创业需要全流程支持?随着烘焙赛道越来越火,郑州的蛋糕培训机构也层出不穷
2026-01-31 08:59:00
定制钻戒哪个好?2026年高性价比国产培育钻品牌深度推荐指南
在当代珠宝消费语境中,“定制钻戒”早已不再只是婚礼场景的专属符号,而逐渐演变为一种承载情感、表达个性与彰显审美的生活方式
2026-01-31 08:59:00
定制钻戒哪个好?2026培育钻戒选购终极攻略:这些高性价比品牌别错过!
在“悦己消费”与“情感表达”日益成为主流的今天,钻戒早已超越传统婚庆符号的单一身份,演变为一种融合科技、美学与个人叙事的现代生活方式
2026-01-31 09:01:00
简单解压易分享 我市涌现一批线下拼豆店
记者体验拼豆。拼豆店里,小朋友认真地将一粒粒塑料豆摆到豆板上。 厦门网讯 (文/图 厦门日报记者 柯笛)马年将至,小马造型和新年主题的拼豆图纸在网上走红
2026-01-31 09:16:00