• 我的订阅
  • 科技

Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功

类别:科技 发布时间:2024-10-08 09:52:00 来源:新智元

Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功

【新智元导读】Meta版Sora,就在刚刚惊艳来袭。Movie Gen可生成1080p、16秒、每秒16帧的高清长视频,还能生成音效、编辑视频、上传图像生成个性化视频。甚至Meta还放出了92页论文,模型架构、训练细节一并公开,干货满满!

毫无预兆地,Meta版Sora——Movie Gen,就在刚刚抢先上线了!

Meta将其称为「迄今最先进的媒体基础模型」。

Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功

全新上线的大杀器Movie Gen Video,是一个30B参数的Transformer模型,可以从单个文本提示,生成高质量的高清图像和视频,视频为1080P、16秒、每秒16帧。

一同推出的还有Movie Gen Audio。这是一个13B参数的Transformer模型。通过视频输入和文本提示,它就可以可控性生成和视频同步的高保真音频,时长最长45秒。

最惊人的是,这次Meta一并连论文都发布了。

Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功

论文中,详细介绍了Movie Gen的架构、训练方法和实验结果。

Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功

论文地址:https://ai.meta.com/static-resource/movie-gen-research-paper/?utm_source=twitter&utm_medium=organic_social&utm_content=thread&utm_campaign=moviegen

从论文可以看出,Movie Gen Video沿用了Transformer的设计,尤其借鉴了Llama 3。而研究人员引入的「流匹配」(Flow Matching),让视频在精度和细节表现上,都优于扩散模型。

稍显遗憾的是,这次Meta发的也是「期货」,产品预计明年才正式向公众开放。

不出意外的,围观群众给出亮眼点评:「Meta居然抢着OpenAI之前发布了Sora,呵呵」。

就在昨天,Sora负责人Tim Brooks选择离职,Meta这个时间点放出Movie Gen,也真是够扎心的。

而HuggingFace工程师也直接贴出Meta开源主页,在线催更模型开源。

也有人期待,Meta版Sora的这次发布,或许或激出其他家的下一个王炸级产品。

一键视频生成,赶超Sora

凭借开源Movie Gen,Meta正式进军AI视频领域。

可以说,Movie Gen在编辑、个性化功能方面,站在了一个新阶段。而且,最令人印象深刻的,便是把一张个人照,转换成个性化视频。

小扎在社交平台上以身试法,将自己照片作为输入,Movie Gen为其配上了健身的视频。

文本生成视频

现在,只要使用简单的文本输入,就能生成自定义的视频了。

从官网放出的Demo可以看出,Meta所言不虚,Movie Gen的确可以说「为沉浸式AI内容」树立了新标准。

更为瞩目的是,Movie Gen可以创建不同宽高比的高清长视频。在业内,这属于首次!

文本编辑视频

而只要使用文本输入,就可以编辑现有视频。

Movie Gen可以支持非常精确的视频编辑,无论是样式、过渡,还是精细编辑。

通过文字输入,就能让小女孩向空中放飞的灯笼,变成一个气泡。

在沙地上跑步的男子,手中可以加上蓝色绒球,周围环境可以换成仙人掌沙漠,甚至可以让男子换上一身恐龙套装。

在观众席上观影的一对男女,可以让他们戴上3D眼镜、背景换成游乐园,甚至加上下雨的特效。

南极冰原上的企鹅可以穿上维多利亚式的衣服,背景可以加上遮阳伞和沙滩床,甚至整幅画面都能变成铅笔素描画。

个性化视频

并且,Movie Gen还有一个Sora没有的亮点——个性化视频!

音效和配乐

Movie Gen还可以将视频、文本作为输入,并为视频生成音频。

它可让你创建和扩展视频音效、背景音乐或整个配乐。

比如,下面企鹅戏水的画面中,配上了AI生成的优美的管弦乐曲。

文本输入:A beautiful orchestral piece that evokes a sense of wonder

AI生成的烟花音效,也是如此地逼真。

文本输入:Whistling sounds, followed by a sharp explosion and loud crackling.

倾泻而下的瀑布和和雨水,站在高处遥望远方顿感壮观。

文本输入:Rain pours against the cliff and the person, with music playing in the background.

一条蛇在草地里缓慢前进,给人一种危机四伏的赶脚。

文本输入:Rustling leaves and snapping twigs, with an orchestral music track.

AI生成的背景音,很有山地摩托摩托竞赛那味儿了。

文本输入:ATV engine roars and accelerates, with guitar music.

还有溜滑板,配着动作,给出不同节奏的音效。

文本输入:Wheels spinning, and a slamming sound as the skateboard lands on concrete.

92页技术报告,同用Llama 3架构

Movie Gen发布同时,Meta还祭出了92页的技术报告。 值得一提的是,这次团队也被命名为「Movie Gen team」。

Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功

Pytorch之父Soumith Chintala表示,其中很多细节将会推动AI视频领域的发展。

接下来,一起看看Movie Gen得以实现的技术要点吧。

Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功

研究人员表示,Movie Gen主要是基于两种基础模型打造的,一个是Movie Gen Video,另一个是Movie Gen Audio。

Movie Gen Video

Movie Gen Video参数有300亿,基础架构细节如下图所示。

它能够联合文本到图像和文本到视频的生成。

Movie Gen Video可以遵循文本提示,生成长达16秒、16帧每秒高清视频。

它也是通过预训练微调完成,在骨干网络架构上,它继续沿用了Transformer的设计,尤其是借鉴的Llama3的设计。

而且,该模型有强大的适应性,可生成不同纵横比、分辨率和时长的高质量图像和视频。

预训练阶段,在大约1亿个视频和10亿张图像上进行了联合预训练。

它是通过「看」视频,来学习视觉世界。

实验结果发现,Movie Gen Video模型能够理解物理世界——

可以推理物体运动、主-客体交互、几何关系、相机运动、物理规律,以及各种概念的合理运动。

在微调阶段,研究人员精选了一部分视频,对模型在美学、运动质量方面完成了微调。

为了提高训练、推理效率,研究人员在时空压缩的潜在空间(Latent Space)中进行生成。

为此,他们训练了一个单一的时间自编码器(TAE),用于将RGB图像和视频映射到潜在空间。

然后,再使用预训练文本编码器,来编码用户提供的文本提示,并获得文本提示嵌入,这些嵌入用作模型的条件。

流匹配,击败扩散损失

值得一提的是,研究人员还引入「流匹配」(Flow Matching)来训练生成模型,这使得视频生成效果在精度、细节表现上,都优于扩散模型。

「流匹配」是一种新兴的生成模型训练方法,其核心思想是——直接学习样本从初始噪声状态向目标数据分布转化的过程。

而且,模型只需通过估计如何在每个时间步中演化样本,即可生成高质量的结果。

与扩散模型相比,「流匹配」训练效率更高、计算成本更低、并且在时间维度保持连续性和一致性。

有网友对此总结道,在质量和文本对齐上,人类评估都强烈倾向于流匹配,而不是扩散。

此外,Movie Gen Video在技术上也引入了很多创新:

他们引入了创新的位置编码方法——「因子化可学习编码」,能够独立对高度、宽度、时间三个维度进行编码,然后将其相加。

基于这种灵活设计,让模型不仅能够适应不同宽高比,还能处理任意长度的视频。

另外,为了解决模型推理效率问题,研究人员采用了一种「线性-二次时间步长」的策略。

如下图所示,仅需50步,就能实现接近1000步采样效果,大幅提升了推理速度。

与此同时,Movie Gen Video还采用了一种巧妙的「时间平铺」方法,进一步提升生成效率。

具体来说,这种方法将输入的视频,在时间维度上切分成多个小片段,然后对每个片对独立进行编码和解码,最后再将所有处理好的片段,重新拼接成完成视频。

这种分而治之策略,不仅显著降低内存需求,还提高了整体推理效率。

为了确保最终生成的视频质量,团队在解码阶段采用了精心设计的重叠和混合技术。

最后微调得到的Movie Gen Video模型,与当前最先进的模型相比,大幅超越LuamaLabs的Dream Machine,还有Gen-3。

它仅小幅超越了Sora、Kling 1.5。

如下是,生成图像质量的对比。总的来说,Movie Gen Video在画面一致性、质量等方面,均取得了最优表现。

提示中袋鼠走路细节,在Sora中到最后并没有展现。

Movie Gen Audio

音频模型参数共有130亿,能够生成48kHz的高质量电影音效和音乐。

而且,这些AI音频与输入视频,实现同步。

值得一提的是,Movie Gen Audio可以原生处理不同长度音频生成。

这一过程是通过TAE完成解码与编码。

而且,通过音频延伸技术,能够为长达几分钟视频,制作出连贯长音频。

研究人员在大约100万小时音频上,对模型进行了预训练。

得到的预训练模型,不仅学会了物理关联,还学会了视觉世界和音频世界之间的心理关联。

另外,模型还可以生成,与视觉场景匹配的非画面「内环境」声音,即便是声源没有出现在画面中。

最后,模型还可以生成支持情绪,并与视觉场景动作相匹配的非画面内音乐。

而且,它还能与专业地混合音效和背景音乐。

通过评估,与当前先进的音频模型ElevenLabs等相比,Movie Gen Audio结果如下所示。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-08 11:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
【新智元导读】一台4090笔记本,秒生1K质量高清图。英伟达联合MIT清华团队提出的Sana架构,得益于核心架构创新,具备了惊人的图像生成速度
2024-10-18 09:49:00
马斯克评OpenAI首个视频生成模型:人类认赌服输
...读:效果炸裂!OpenAI首个视频生成模型发布,1分钟流畅高清,网友:整个行业RIP刚刚,奥特曼发布OpenAI首个视频生成模型Sora
2024-02-16 22:16:00
苹果300亿参数大模型首亮相,还买了家AI公司|焦点分析
...图像分辨率和图像标记数量对模型性能影响较大,比如更高清的图像,标注的细节越多,模型的效果就更好。视觉语言连接器对模型的影响较小,视觉语言连接器指的是可以将图像和文本结合起来,
2024-03-16 18:14:00
Sora这就落伍了?Meta“最强视频模型”不用DiT,用Llama大力出奇迹了
...些模型结合起来,可以用于创建最高 16 秒的逼真个性化高清视频(16 FPS)和 48kHz 的音频,并具备编辑真实或生成视频的能力
2024-10-08 09:51:00
618买什么?华为影音最美最强CP值得选购!
...音量大小导致的聆听差异,确保用户听感细腻如一。享受高清音质,不仅需要高清音乐和解析,还要有高清的传输能力。在L2HC以及LDAC™双高清解码的加持下
2023-06-01 00:27:00
盘点搭载麒麟990处理器的手机,共15款
...到擒来,各类计算任务游刃有余配备了一块8英寸的AMOLED高清原色大屏,支持2K的分辨率,色彩更加绚丽,显示效果更加细腻
2023-01-10 02:00:00
追星路上的网络神器,就选飞猫随身WiFi
...参加了哪些活动的路透图等,想拉近与偶像之间的距离。高清追直播不卡顿是需求之二,提前准备好流畅的网络环境,可增加观看直播活动的愉悦心情,画面高清流畅,不卡顿,可观看到爱豆的每一
2025-01-23 10:46:00
火爆全球的AI音频大模型,最新技术细节揭秘
...abilityAI于今年3月推出的商用Stable Audio 2的变体模型,整体架构保持一致,但在训练数据的采用和部分架构上采取了调整
2024-07-25 09:22:00
2025UWA SUMMIT暨世界超高清视频产业联盟会员大会主论坛在深圳成功举办
11月5日,2025 UWA SUMMIT暨世界超高清视频产业联盟会员大会主论坛在深圳成功举办。大会以“菁彩无限 智创未来”为主题
2025-11-11 22:04:00
更多关于科技的资讯:
河北日报讯(记者王璐丹)近日,平方公里阵列天文台(SKAO)官网发布消息,位于南非的平方公里阵列中频射电望远镜(SKA-Mid)首次成功获得干涉条纹
2026-01-18 07:54:00
人工智能如何赋能“安徽万物”?
大皖新闻讯 1月16日,《安徽省“人工智能+万物”应用行动方案》发布,到2030年,安徽“人工智能+万物”应用落地将超万个
2026-01-17 21:56:00
鲁网1月17日讯1月13日上午,普惠(临沂)投资服务有限公司考察组一行赴临沂市供应链金融协会开展学习交流活动。临沂市供应链金融协会会长
2026-01-17 14:47:00
1月16日,全球最大、起重量达2300吨的桥面吊机在河北省秦皇岛市一装备制造企业正式下线,标志着我国在大型桥梁施工装备领域又获重大突破
2026-01-17 15:44:00
2026天然苏打水市场趋势:健康化、场景化成主流 泉匠深耕多区域市场实现销量突破
随着健康消费理念的深度渗透,天然苏打水行业正迎来高质量发展的黄金期。据行业权威报告预测,2026年中国天然苏打水市场规模将突破260亿元
2026-01-17 15:58:00
开元云与广西大学人工智能学院达成战略合作,共建AI产教融合新高地
广西大学人工智能学院常务副院长张振荣、副院长赵志刚、陈燕教授等老师,出席双方产学研合作签约仪式。2026年1月15日 广西南宁
2026-01-17 15:58:00
数据接口安全风险监测国标正式发布!深信服深度参编
根据2025年12月2日国家市场监督管理总局、国家标准化管理委员会发布的中华人民共和国国家标准公告(2025年第33号)
2026-01-17 16:00:00
近日,国网潢川县供电公司依托用电信息采集系统及“专变负载可视化”数据集,构建反向有功异常自动监测告警机制,实现非光伏用户反向用电异常精准识别处置
2026-01-17 16:00:00
新消费|万物皆可租!这届年轻人为何“能租就不买”?
租一台口袋相机只需30元一天专业优质的画质却可以让旅途回忆更生动用百来元就能配齐一整套露营装备花100元便能轻松满足整趟出国旅行的穿搭需要……如今越来越多的年轻人正通过“租赁”重新定义自己的消费方式近日
2026-01-17 16:54:00
冷暖省电双先锋!美的酷省电二代横扫抖音商城三榜冠军
2026刚开年,空调行业首款爆品已然出现——全新上市美的酷省电二代便凭硬核实力脱颖而出,强势斩获抖音商城智能空调爆款榜
2026-01-17 16:00:00
厦门钨业通过技术创新与人才创新,不断攻克行业技术难题,塑造发展新动能让“有色”更出色东南网1月17日讯 (福建日报记者 戴敏 李向娟)近日
2026-01-17 11:38:00
在漳州龙文区,智能机器人等一批前沿项目正在聚集,新质生产力蓬勃生长——“未来场景”来到家门口东南网1月17日讯 (福建日报报业集团记者 杨凌怡 通讯员 张小惠)广场前
2026-01-17 11:41:00
中国姚绣站上巴黎大展C位
1月15日至19日,非遗苏绣品牌姚绣(Yao Silk)再度亮相巴黎M&O展,成为本届展会Fine Craft(精品工艺)展区唯一中国品牌
2026-01-17 09:40:00
民大学子全国“摘金” AI巧解垃圾分类与楼宇管理难题
荆楚网(湖北日报网)讯(记者林杉 许文秀 通讯员陈韶月 张祎晗)面对垃圾分类的效率瓶颈,人工智能与机械设计如何给出更优解
2026-01-17 10:36:00
长白时评评论员 久泰平近日多起滥用“七天无理由退货”的新闻引发社会关注。有商家曝光,有学生集体网购演出服,演出后再把带着污渍
2026-01-17 05:55:00