• 我的订阅
  • 科技

北大、快手开源视频生成模型Pyramid Flow,1分钟生成5秒视频

类别:科技 发布时间:2024-10-12 09:49:00 来源:智东西
北大、快手开源视频生成模型Pyramid Flow,1分钟生成5秒视频

智东西10月11日消息,据VentureBeat报道,北京大学、北京邮电大学和快手科技在本周联合开源了一款名为Pyramid Flow的高清视频生成模型。Pyramid Flow能根据文本描述制作长达10秒、分辨率为1280×768、每秒24帧的视频。

Pyramid Flow采用了金字塔流匹配算法,优化了视频生成的效率和质量。这一算法将视频生成过程分解为多个阶段,每个阶段对应着不同的分辨率。

在推理阶段,Pyramid Flow模型能够以相当快的速度生成视频。具体来说,它可以在56秒内生成一段时长为5秒、分辨率为384p的视频,这一速度与市面上许多全序列扩散模型相当,甚至更快。

目前,该项目已经在Hugging Face和GitHub上开源。

开源地址:

1、https://github.com/jy0205/Pyramid-Flow

2、https://huggingface.co/rain1011/pyramid-flow-sd3

一、金字塔流匹配算法:高质量AI视频新技术,逐层提高分辨率

文生视频领域有一个非常难的技术挑战,就是如何有效地处理和生成高维度的视频数据。

针对这一技术挑战,Pyramid Flow研发团队提出了金字塔流匹配算法。

金字塔流匹配算法的核心思想是将视频生成过程分解为多个阶段来有效处理高维度的视频数据。这些阶段从低分辨率开始,逐步升级到高分辨率,从而逐步提升视频的清晰度。

这个过程就像是先画一个简单的草图,然后一点点地加上颜色和细节,直到画出一幅完整的画。

北大、快手开源视频生成模型Pyramid Flow,1分钟生成5秒视频

▲金字塔流匹配算法:视频的生成是在不同的分辨率层次上逐步进行的(图源:arxiv论文截图)

二、开源数据集训练,Pyramid Flow生成5-10秒高清视频

Pyramid Flow模型通过分阶段的方式生成视频,大大减少了计算成本。

//oss.zhidx.com/uploads/2024/10/6708ce81379bf_6708ce8130b37_6708ce8130b05_2.mp4

▲Pyramid Flow生成的视频展示(图源:Pyramid Flow官网)

与传统的扩散模型相比,Pyramid Flow的金字塔流匹配算法将token数量减少了4倍。

//oss.zhidx.com/uploads/2024/10/6708cef0f36bb_6708cef0ea0a5_6708cef0ea080_2.mp4

▲Pyramid Flow生成的视频展示(图源:Pyramid Flow官网)

据官网介绍,该模型可以在768p分辨率和每秒24帧的条件下生成5至10秒的视频,并且是基于开源数据集进行训练的。

//oss.zhidx.com/uploads/2024/10/6708cfe934692_6708cfe922581_6708cfe92255e_2.mp4

▲Pyramid Flow生成的视频展示(图源:Pyramid Flow官网)

具体来说,Pyramid Flow在训练时用到的数据集包括LAION-5B、CC-12M、SA-1B以及WebVid-10M和OpenVid-1M等。

1、LAION-5B:一个用于多模态AI研究的大型数据集。

2、CC-12M:一个由网络爬虫收集的图像文本对的数据集。

3、SA-1B:具有高质量、无模糊图像的数据集。

4、WebVid-10M和OpenVid-1M:两个被广泛用于文本到视频生成的视频数据集。

三、宽松许可,Pyramid Flow开源商业用途,轻松实现视频微调

Pyramid Flow是开源的AI视频生成工具,它允许用户用在商业项目里,但须保留版权声明。

//oss.zhidx.com/uploads/2024/10/6708d06aaa71b_6708d06aa00f2_6708d06aa00cf_2.mp4

▲Pyramid Flow生成的视频展示(图源:Pyramid Flow官网)

通过使用Pyramid Flow,用户可以免费调整视频细节,这项功能对于电影制片厂来说很有吸引力。

电影制片厂可以通过使用Pyramid Flow来提高视频制作效率、降低视频制作成本,并探索新的视频创意工具。

不过,要想充分利用好这一模型,电影制片厂还需要具备一定的开发人才和计算资源。

目前,Pyramid Flow缺乏像Runway Gen-3 Alpha这样的模型所具备的一些高级微调功能,比如精确控制摄像机角度、关键帧和人体姿态等电影元素。

//oss.zhidx.com/uploads/2024/10/6708d0bf19031_6708d0bf0fc60_6708d0bf0fc3e_2.mp4

▲Pyramid Flow生成的视频展示(图源:Pyramid Flow官网)

//oss.zhidx.com/uploads/2024/10/6708d11fb804e_6708d11fb15f1_6708d11fb15d1_2.mp4

▲Pyramid Flow生成的视频展示(图源:Pyramid Flow官网)

//oss.zhidx.com/uploads/2024/10/6708d140beee7_6708d140b8aa9_6708d140b8a87_3.mp4

▲Pyramid Flow生成的视频展示(图源:Pyramid Flow官网)

来源:VentureBeat、Pyramid Flow官网、arxiv

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-12 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

文生视频大模型,短视频的过弯点?
...就成为了国内厂商追逐的焦点。6月初,快手自研的视频生成大模型“可灵”正式上线。可灵AI采用了与Sora相似的技术路线,能够生成具有合理运动和模拟物理世界特性的视频。截至目前,
2024-07-30 14:08:00
快手发布对标Sora的视频生成大模型「可灵」 已开放邀测体验
...近日,又一国产视频大模型加入战局,快手“可灵”视频生成大模型官网正式上线。相较此前各家放出的视频大模型以展示视频为主,本次亮相的可灵大模型不但效果对标Sora,且已在快手旗下
2024-06-07 09:20:00
AI视频新战场:字节对决快手、反击Sora
...新知 原创作者丨萧维 编辑丨蕨影一场由Sora引发的AI视频生成竞赛,如今迎来新的竞争者!9月24日,2024火山引擎AI创新巡展深圳站上
2024-09-30 13:34:00
视频大模型 快手美图殊途同归
...视频大模型“可灵”并开始邀测,用户输入一段文字即可生成视频。美图宣布将在7月底上线新品MOKI,该产品基于美图奇想大模型的视频生成能力,可帮助用户生成AI短片。不论是做视频还
2024-06-13 23:55:00
蓝色光标Blue AI携手快手可灵AI,共同引领AI视频生成新时代
...色光标宣布与快手可灵AI正式签署战略合作协议,就AI视频生成技术研发、平台合作、场景共建、内容创作优化等多维度展开深入合作,共探AI视频生成的无限潜力。蓝色光标自研AI行业模
2024-09-11 14:48:00
视频生成大模型sora和可灵的区别在哪里?
...称为“世界模拟器”:它理解真实的规则,并在此基础上生成“世界”。如果说从前还是一道铜墙铁壁,那么现在,虚拟与真实可能仅一线之隔。Sora之后,它的挑战者前赴后继。6月,视频生
2024-06-26 14:27:00
对标Sora!快手自研视频生成大模型可灵AI全面开放内测
快科技7月25日消息,日前,快手视频生成大模型可灵AI宣布基础模型升级,并全面开放内测,同时正式上线付费会员体系。用户每日登录都可免费获得66灵感值,可用于兑换可灵AI平台内指定
2024-07-25 07:57:00
大模型的未来,快手在自己身上找答案
...数字人 | 图片来源:视觉中国而另一片场地上,快手视频生成大模型明星「可灵」发布了一系列重磅升级和 AIGC 短剧,台下欢呼声此起彼伏。对外界来说,AI 能力是抽象的,带货主
2024-07-11 14:20:00
快手可灵大模型开放视频续写功能 可生成最长约3分钟视频
本文转自:中国新闻网快手的视频生成大模型“可灵”自面世以来,以其惊艳效果引发了国内外的广泛关注。 6月21日,可灵再度进化,正式推出图生视频功能,支持用任意静态图像生成5s视频,
2024-06-24 19:53:00
更多关于科技的资讯:
超多优质好物!快来青岛西海岸新区金沙滩啤酒城“寻宝逛GAI”
鲁网8月9日讯第35届青岛国际啤酒节在金沙滩啤酒城狂欢正酣,这里不只有泡沫四溢的酒杯与欢呼的人群,更藏着一座能打包带走的“快乐宝藏库”
2025-08-09 11:41:00
剪映专业版助力创作提效,90后四川小伙靠剪辑月入10万
过去几年,四川小伙王星程每天坚持分享自己的剪辑日常。得益于剪映专业版的方便易上手,“半路出家”的他很快就摸索出一套剪辑窍门
2025-08-08 15:27:00
天津,这座古老而又现代的城市,多元文化在建筑中显现、沉淀、交融。近年来,天津着力讲好建筑承载的故事,不仅使老建筑“重获新生”,更展现了天津厚重的人文底蕴与独特的城市魅力。
2025-08-09 07:44:00
温特纳科技:为压力扫描阀和气动探针提供一站式校准服务
从航空航天到汽车动力,从风洞实验到无人机飞行测试,精确的流场测量和压力数据采集是确保产品设计和研发进度的重要保障。很多科研工作者在采购压力扫描阀和气动探针后
2025-08-08 15:27:00
智能饮品革命:东方慧影如何用“零成本”方案破解餐饮行业人工困局
一、餐饮行业的成本之痛,政策改变迫使餐饮商家做出调整截至2025年,餐饮行业人工成本高达32.7%,较疫情前上升了8%
2025-08-08 15:27:00
官方数据首度公开!TikTok Shop跨境日本、欧洲五国新市场大促双爆发
近日,TikTok Shop新市场捷报频传!日本站点开放仅一个月,首场大促便斩获“开门红”;与此同时,欧洲五国德法意西
2025-08-08 15:27:00
当连锁药房遇上“好老板”,通联支付助力“为了你”健康药房升级收银服务
药店买药免排队、秒支付!近日,通联支付与当地邮政联合,为云南“为了你健康药房”上线“好老板”轻应用,助力连锁药店升级一站式智慧收银平台
2025-08-08 15:27:00
追求健康美食的你,是否渴望一种便捷烹饪方式?空气炸锅正是你的理想选择!它利用高速循环热风,无需大量油脂就能烹饪出酥脆可口的食物
2025-08-08 15:27:00
格力高上海工厂探访:本土化研发与智能智造驱动市场领跑
近日,格力高首次向媒体开放其位于上海的智能化生产基地,揭秘这家百年食品企业如何通过“本土化研发+智能智造”双轮驱动,实现从消费者需求洞察到产品快速落地的高效转化
2025-08-08 15:27:00
效率跃升18倍!曙光超智融合引领生命科学新范式
当前,海量生物数据的处理与分析能力已成为制约行业发展的关键瓶颈。近日,依托曙光超智融合技术建设的华东某全国产计算中心,与单细胞测序领域代表性企业墨卓生物达成战略合作
2025-08-08 15:27:00
传奇再启:赛德斯签约品牌强国新品即将来袭
2025年8月5日,中国知名电竞音频品牌赛德斯(SADES)在广东深圳正式签约“品牌强国·自主品牌优选工程”,成功入选该国家级项目成员单位
2025-08-08 15:27:00
餐饮行业在服务消费中地位举足轻重。当下的中国餐饮行业正在经历从“速度增长”到“效率竞争”的结构性转变。根据中国烹饪协会发布的《2024年全国餐饮业发展回顾与2025年展望》(以下简称“报告”)数据显示
2025-08-08 15:27:00
名众集团首创的基因枪无创草本抗衰技术,历经7年研发60万例临床,再次突破
名众集团自2018年自主研发首创了“四维形气美学”“草本0创还原术”后,历经7年研发60万例临床,再次实现重大技术突破
2025-08-08 15:27:00
视源股份投屏黑科技:3秒丝滑连接,比掏手机还快!
会议室的桌面上总缠着一堆线缆 ——VGA 线、DP 线、HDMI 线像乱麻一样,某企业高管曾因笔记本找不到匹配接口,让二十多位参会者等了十来分钟
2025-08-08 15:32:00
G视觉|全球首创!贵州嘉尚百米智能隧道窑日产40吨正极材料
走进贵州嘉尚新能源材料有限公司全球首创的100米全自动化隧道窑生产车间,自动化设备高效运转,机械臂精准作业,智能系统实时监控着从投料到产出的全过程
2025-08-08 15:42:00