• 我的订阅
  • 科技

Sora这就落伍了?Meta“最强视频模型”不用DiT,用Llama大力出奇迹了

类别:科技 发布时间:2024-10-08 09:51:00 来源:硅星人

Sora这就落伍了?Meta“最强视频模型”不用DiT,用Llama大力出奇迹了

在OpenAI Sora的主要技术负责人跑去Google、多个报道指出OpenAI Sora在内部因质量问题而导致难产的节骨眼,Meta毫不客气发了它的视频模型“Movie Gen”,并直接用一个完整的评测体系宣告自己打败了Sora们。

Sora这就落伍了?Meta“最强视频模型”不用DiT,用Llama大力出奇迹了

而且更狠的是,Meta还“杀人诛心”,虽然这模型目前和Sora一样还没对外开放,但它把新模型的95页技术报告(没有开源,但包含很多细节)公开,并且告诉大家:

这模型不仅效果上打败了Sora,而且用了新的技术路线——也就是证明了Sora的技术路线在今天也不再是最先进的了。

各位文生视频玩家们,别“抄”Sora了。

“媒体基座模型”

准确说,Meta发布的是一系列模型,一个为了实现“AI生成媒体内容”而创建的一个组合。这也是这个技术论文的标题的意思:Movie Gen: A Cast of Media Foundation Models

Sora这就落伍了?Meta“最强视频模型”不用DiT,用Llama大力出奇迹了

这个组合包括:

最大的基础文生视频生成模型 Movie Gen Video , 300 亿参数。

最大的基础视频生成音频模型 Movie Gen Audio ,130 亿参数。

进一步对 Movie Gen Video 模型进行后训练获得的 Personalized Movie Gen Video,用来根据个人的面部生成个性化视频。以及一种新的后训练过程,能够生成 Movie Gen Edit,用于精确编辑视频。

这些模型结合起来,可以用于创建最高 16 秒的逼真个性化高清视频(16 FPS)和 48kHz 的音频,并具备编辑真实或生成视频的能力。

在用户侧,能体验到的功能包括:

视频生成: 用户用一段文本提示能生成高清视频(1080p),最长可达 16 秒,帧率 高达16fps。对主体-客体关系,物流规律捕捉和摄像机的各种拍摄运动等也都完成的很好。

个性化视频生成: 用户可以上传自己的图像,结合文本提示,可以让自己出现在个性化的生成视频里。

精准视频编辑: 这是Meta重点强调的功能,除了可以对背景和风格做整体的修改,Movie Gen也提供了通过文本指令来添加、移除或替换元素的局部编辑功能。缺乏对视频的精确编辑能力,在目前视频生成产品中算是一大痛点。

音频生成: Movie Gen 不仅可以根据视频内容和文本指令生成高质量的各类音效和音乐,而且还可以做到与视频内容更高度的匹配与同步。这些音频最长可达 45 秒,而且Meta还表示,它们的音频模型可以生成任意长度视频的连贯音频。

这是它展示的一系列案例:

不用DiT了,用Llama大力出奇迹!

这其中,最重要的显然是文生视频部分。

根据论文介绍,Movie Gen Video是一个拥有300亿参数的基础模型,用于联合文本生成图像和视频,可以生成符合文本提示的高质量高清(HD)视频,时长最长可达16秒。该模型能够自然地生成多种纵横比、分辨率和时长的高质量图像和视频。模型通过联合预训练,处理约1亿个视频和约10亿张图像,通过“观看”视频来学习视觉世界。

这只是最基础的介绍,而最最重要的信息就是,它不再是一个DiT架构的模型,也就是和现在几乎所有最知名的文生视频模型架构都不一样。

用Meta视频生成团队的研究科学家Andrew Brown的话说,在这个项目里最大的发现就是:数据,算力和模型参数非常重要。然后把这个搭配上Flow Matching,就可以用一个最简单最流行的架构——也就是Meta自己的Llama,实现最强的视频模型。

Sora这就落伍了?Meta“最强视频模型”不用DiT,用Llama大力出奇迹了

这明显是冲着Sora诞生后,已经成为所有文生视频创业公司和大厂项目主流的DiT路线去的。

今天视频生成的技术路线里,扩散模型是背后最主流的思想。简单说,它通过逐步将噪声还原为图像或视频,生成过程是一个去噪的过程。具体地,扩散模型的生成过程通常是从随机噪声开始,逐步反向推导出与输入文本描述相对应的清晰视频帧。而DiT是把Transformer的能力引入到这个思想里,来更好完成模型对全局上下文信息的捕捉能力,本质上还是扩散的思路。

但Flow Matching则不再从这个扩散过程入手做训练,而是更“暴力”,直接寻找更抽象的“近路”,而不是一步步寻找找路过程里的脚印:

Flow Matching基于轨迹学习,它直接在潜在空间(latent space)中学习从输入噪声到目标视频序列的映射轨迹。它通过优化一个连续的ODE(常微分方程)系统,找到从初始随机分布到目标分布的最佳“路径”。

而Meta这次把Flow Matching直接加到Llama架构上,第一次彻底不用扩散的思路来做生成并打败了DiT路线的一众代表模型。

Sora这就落伍了?Meta“最强视频模型”不用DiT,用Llama大力出奇迹了

要实现这个效果,自然是离不开“大力出奇迹”的配套方法。

根据Meta的论文,他们使用了多达 6144 个 H100 GPU 训练了媒体生成模型,每个 GPU 的运行功率为 700W TDP,配备 80GB HBM3,采用 Meta 的 Grand Teton AI 服务器平台Baumgartner 和 Bowman,2022。在一台服务器内,有八个 GPU 通过 NVSwitch 进行均匀连接。服务器之间的 GPU 则通过 400Gbps RoCE RDMA 网卡相互连接。训练任务由 Meta 的全球规模训练调度器Mast进行调度。

扎克伯格囤的那些卡用在了哪里,用在了这。

除此之外,在这个详尽的论文里,Meta还介绍了在模型各个环节里的多个创新技巧。比如时空自动编码器(Temporal Autoencoder, TAE),通过它将视频和图像编码到压缩的时空潜在空间中,大幅减少生成视频时的计算量。这些技术让Meta可以“用一个更通用的架构来处理媒体生成任务”,它把图像和视频生成统一了起来。

简单说,Movie Gen用Llama大力出奇迹打败了Sora路线。

Sora这就落伍了?Meta“最强视频模型”不用DiT,用Llama大力出奇迹了

在Meta的各路人马对此次模型的宣传里,其实有一个很明显的意图:在证明了Sora路线不是最优路线后,它希望更多的开发者来基于Llama做文生视频的模型开发和研究。显然这对Meta的开源战略也很重要。

而另一个有意思的地方是,Meta这次的“模型家族”,其实不只是追求榜单和评测上的表现,它已经呈现出明显的实际应用导向,这让它本身看起来可能不会走开源路线,它的目标是用在Meta自己的社交媒体,乃至Orion为代表的下一代的计算平台生态里。

在Meta的官方博客里这样写道:

想象一下,您可以用文字提示来制作并编辑一个“日常生活”的动画视频分享到Reels,或者为朋友定制一个个性化的生日动画祝福,并通过WhatsApp发送给他们。随着创造力和自我表达的主导,可能性将是无限的。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-08 11:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

Sora为何没能诞生在中国?
...家AI初创公司Pika lab(以下简称Pika),推出自研视频生成模型的新功能,可同时生成画面和声音。此前,人们看到的所有AI生成的视频都没有声音
2024-03-19 05:31:00
OpenAI又放大招,一文看懂Sora对AI领域的影响
...破?2024年2月16日凌晨,OpenAI在官网发布了最新的文生视频模型Sora。Sora不仅突破了现有文生视频模型10秒左右的连贯性局限
2024-02-21 19:01:00
国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代
【新智元导读】全球首个支持多主体一致性的多模态模型,刚刚诞生!Vidu 1.5一上线,全网网友都震惊了:LLM独有的上下文学习优势,视觉模型居然也有了。来自中国的视频生成模型,再
2024-11-15 09:52:00
王炸级3nm安卓AI芯片发布,生成视频不用联网
...的端侧LoRA训练,可以高效离线训练专属于自己的LoRA生图模型,同时保证隐私不泄露。大模型方面,天玑9400能够运行的模型窗口文本长度提升到了32K
2024-10-18 09:49:00
文生视频大模型,短视频的过弯点?
...ora的横空出世,这个可以创建长达一分钟视频的文生视频模型就成为了国内厂商追逐的焦点。6月初,快手自研的视频生成大模型“可灵”正式上线。可灵AI采用了与Sora相似的技术路线
2024-07-30 14:08:00
豆包再降价,字节“饱和式”进攻仍在继续
大模型应用大战即将一年整,竞争依然激烈。12月18日的火山引擎Force冬季大会上,字节跳动“豆包全家桶”又迎来了新成员。豆包视觉理解模型正式亮相,其具备更强的内容识别、理解和推
2024-12-20 09:25:00
一文读懂黄仁勋CES重磅发布:最新5090芯片、世界最大AI计算机、首个世界模型
...上最大最快的巨型芯片Grace Blackwell NVLink72、首个世界基础模型Cosmos等,并公布了在AI代理
2025-01-07 19:00:00
手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态
...再次刷新端侧多模态天花板,面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新!仅8B参数,取得 20B 以下单图
2024-08-07 09:42:00
OpenAI新年开出王炸,AI竞争升级
...曾引爆全球科技圈。因为其发布了一个全新的聊天机器人模型—— ChatGPT。和过去那些简单的聊天机器人相比,ChatGPT不仅可以回答人类的追问,承认自己回答中的错误,拒绝回
2024-02-20 23:00:00
更多关于科技的资讯:
一年一度的天猫双11购物节再次引爆消费市场。但与往年不同,今年的关键词不再是简单的“低价”或“流量”,而是全面转向“效率”
2025-11-10 20:57:00
这个周末,朋友圈彻底被KPL总决赛刷屏了。这场赛事创下12秒售罄门票、6.2万人现场观赛的亮眼成绩,一举打破单场电竞赛事观众人数最多的吉尼斯世界纪录
2025-11-10 16:46:00
重获森林呼吸:“半亩森林”在杭发布新品,开启环境益生菌空气净化新纪元
2025年11月8日,杭州梦想小镇络绎科学社区迎来了一场充满科技想象与生活温度的创新体验活动——体验π|环境益生菌,开启“森林呼吸”新纪元
2025-11-10 15:40:00
武当山智慧旅游平台升级 多语种 AI 客服暖心上线
近日,武当山智慧旅游平台迎来重要升级,智能 AI 客服多语种功能正式上线,为全球游客打造无障碍智慧游览新体验,也标志着景区公共服务国际化水平迈上新台阶
2025-11-10 15:31:00
“双11”火到海外,全球网民纷纷加入抢购浪潮厦门空港迎来跨境电商出口高峰东南网11月10日讯(海峡导报记者孙春燕)一年一度的购物狂欢节——“双11”正在如火如荼的进行中
2025-11-10 11:19:00
中国银行与中国银联、华住集团举办提振消费主题签约活动
11月6日,中国银行携手中国银联、华住集团,在商务部、文旅部、人民银行上海总部、上海市政府的共同见证下,成功举办“聚力进博新引擎
2025-11-10 11:26:00
澳柯玛推出2026年风冷无霜、立式多系列冷柜新品
鲁网11月10日讯近日,“双擎智控,深冷领鲜”——澳柯玛2026年制冷营销峰会在青岛隆重召开。来自全国各地的合作伙伴、渠道商及主流媒体代表齐聚一堂
2025-11-10 11:31:00
赛德斯耳机产品线深度盘点:以精准科技满足全场景音频需求
在竞争激烈的音频市场,一个品牌能否立足,关键在于其产品线能否精准覆盖多元化的用户场景。游戏耳机品牌赛德斯(SADES)通过其精心布局的耳机产品矩阵
2025-11-10 12:08:00
神都镜像照见数字文明 作家维摩眼中的“河洛智慧”
大河网讯(记者 赵檬)在千年古都洛阳的深厚文明积淀与瞬息万变的互联网浪潮之间,一场跨越时空的对话正在展开。11月5日,作家维摩参加了2025河南省网络文明大会
2025-11-10 12:39:00
2025青岛虚拟现实创新大会|专访自然语义(青岛)科技有限公司CMO薛铮:以轻量化“语义桥梁”助推虚拟现实产业智能升级
鲁网11月10日讯 (记者 尤奕钧 刘晓伟)人工智能技术快速发展,离不开其背后的核心驱动力——自然语言处理(NLP),NLP依赖于算法和模型分析
2025-11-10 11:34:00
卖场变生活场能否“赢”客?解码五缘湾商圈零售新生态
京东MALL的DIY电竞区人气高。(京东MALL 供图)五缘湾天虹超市将闽南古早味引进精品区。(记者 庄筱婧 摄)五缘湾天虹超市将“烟火市集”升级为顾客的“星级家庭后厨”
2025-11-10 08:13:00
在2025年世界互联网大会乌镇峰会主论坛上,国家移民局、国家网信办联合发布外国人资讯服务App——SinoGuide。SinoGuide旨在帮助外国人更好融入并体验中国丰富便捷的数字化服务
2025-11-10 09:49:00
本报讯(全媒体记者黄祥晟、罗晋粤)11月8日,在2025年世界互联网大会乌镇峰会“互联网之光”博览会现场,从算力基建到智能产品
2025-11-10 07:03:00
11月7日从太原福莱瑞达科技有限公司获悉,2025年度“机械工业科学技术奖”获奖名单日前公示,福莱瑞达与太原科技大学联合研发的“多形态货物的智能抓取与装车技术及装备”项目
2025-11-10 07:19:00
江苏南京:以“智”赋“能”,南京AI军团点亮智能制造
建模降本、“鹰眼”护安全、机器人夜检地铁……以“智”赋“能”,南京AI军团点亮智能制造□南京日报/紫金山新闻记者 徐宁周容璇 实习生黄倩以“激光扫描+AI建模”
2025-11-10 08:00:00