• 我的订阅
  • 科技

北大、快手开源视频生成模型Pyramid Flow,1分钟生成5秒视频

类别:科技 发布时间:2024-10-12 09:49:00 来源:智东西
北大、快手开源视频生成模型Pyramid Flow,1分钟生成5秒视频

智东西10月11日消息,据VentureBeat报道,北京大学、北京邮电大学和快手科技在本周联合开源了一款名为Pyramid Flow的高清视频生成模型。Pyramid Flow能根据文本描述制作长达10秒、分辨率为1280×768、每秒24帧的视频。

Pyramid Flow采用了金字塔流匹配算法,优化了视频生成的效率和质量。这一算法将视频生成过程分解为多个阶段,每个阶段对应着不同的分辨率。

在推理阶段,Pyramid Flow模型能够以相当快的速度生成视频。具体来说,它可以在56秒内生成一段时长为5秒、分辨率为384p的视频,这一速度与市面上许多全序列扩散模型相当,甚至更快。

目前,该项目已经在Hugging Face和GitHub上开源。

开源地址:

1、https://github.com/jy0205/Pyramid-Flow

2、https://huggingface.co/rain1011/pyramid-flow-sd3

一、金字塔流匹配算法:高质量AI视频新技术,逐层提高分辨率

文生视频领域有一个非常难的技术挑战,就是如何有效地处理和生成高维度的视频数据。

针对这一技术挑战,Pyramid Flow研发团队提出了金字塔流匹配算法。

金字塔流匹配算法的核心思想是将视频生成过程分解为多个阶段来有效处理高维度的视频数据。这些阶段从低分辨率开始,逐步升级到高分辨率,从而逐步提升视频的清晰度。

这个过程就像是先画一个简单的草图,然后一点点地加上颜色和细节,直到画出一幅完整的画。

北大、快手开源视频生成模型Pyramid Flow,1分钟生成5秒视频

▲金字塔流匹配算法:视频的生成是在不同的分辨率层次上逐步进行的(图源:arxiv论文截图)

二、开源数据集训练,Pyramid Flow生成5-10秒高清视频

Pyramid Flow模型通过分阶段的方式生成视频,大大减少了计算成本。

//oss.zhidx.com/uploads/2024/10/6708ce81379bf_6708ce8130b37_6708ce8130b05_2.mp4

▲Pyramid Flow生成的视频展示(图源:Pyramid Flow官网)

与传统的扩散模型相比,Pyramid Flow的金字塔流匹配算法将token数量减少了4倍。

//oss.zhidx.com/uploads/2024/10/6708cef0f36bb_6708cef0ea0a5_6708cef0ea080_2.mp4

▲Pyramid Flow生成的视频展示(图源:Pyramid Flow官网)

据官网介绍,该模型可以在768p分辨率和每秒24帧的条件下生成5至10秒的视频,并且是基于开源数据集进行训练的。

//oss.zhidx.com/uploads/2024/10/6708cfe934692_6708cfe922581_6708cfe92255e_2.mp4

▲Pyramid Flow生成的视频展示(图源:Pyramid Flow官网)

具体来说,Pyramid Flow在训练时用到的数据集包括LAION-5B、CC-12M、SA-1B以及WebVid-10M和OpenVid-1M等。

1、LAION-5B:一个用于多模态AI研究的大型数据集。

2、CC-12M:一个由网络爬虫收集的图像文本对的数据集。

3、SA-1B:具有高质量、无模糊图像的数据集。

4、WebVid-10M和OpenVid-1M:两个被广泛用于文本到视频生成的视频数据集。

三、宽松许可,Pyramid Flow开源商业用途,轻松实现视频微调

Pyramid Flow是开源的AI视频生成工具,它允许用户用在商业项目里,但须保留版权声明。

//oss.zhidx.com/uploads/2024/10/6708d06aaa71b_6708d06aa00f2_6708d06aa00cf_2.mp4

▲Pyramid Flow生成的视频展示(图源:Pyramid Flow官网)

通过使用Pyramid Flow,用户可以免费调整视频细节,这项功能对于电影制片厂来说很有吸引力。

电影制片厂可以通过使用Pyramid Flow来提高视频制作效率、降低视频制作成本,并探索新的视频创意工具。

不过,要想充分利用好这一模型,电影制片厂还需要具备一定的开发人才和计算资源。

目前,Pyramid Flow缺乏像Runway Gen-3 Alpha这样的模型所具备的一些高级微调功能,比如精确控制摄像机角度、关键帧和人体姿态等电影元素。

//oss.zhidx.com/uploads/2024/10/6708d0bf19031_6708d0bf0fc60_6708d0bf0fc3e_2.mp4

▲Pyramid Flow生成的视频展示(图源:Pyramid Flow官网)

//oss.zhidx.com/uploads/2024/10/6708d11fb804e_6708d11fb15f1_6708d11fb15d1_2.mp4

▲Pyramid Flow生成的视频展示(图源:Pyramid Flow官网)

//oss.zhidx.com/uploads/2024/10/6708d140beee7_6708d140b8aa9_6708d140b8a87_3.mp4

▲Pyramid Flow生成的视频展示(图源:Pyramid Flow官网)

来源:VentureBeat、Pyramid Flow官网、arxiv

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-12 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

文生视频大模型,短视频的过弯点?
...就成为了国内厂商追逐的焦点。6月初,快手自研的视频生成大模型“可灵”正式上线。可灵AI采用了与Sora相似的技术路线,能够生成具有合理运动和模拟物理世界特性的视频。截至目前,
2024-07-30 14:08:00
快手发布对标Sora的视频生成大模型「可灵」 已开放邀测体验
...近日,又一国产视频大模型加入战局,快手“可灵”视频生成大模型官网正式上线。相较此前各家放出的视频大模型以展示视频为主,本次亮相的可灵大模型不但效果对标Sora,且已在快手旗下
2024-06-07 09:20:00
AI视频新战场:字节对决快手、反击Sora
...新知 原创作者丨萧维 编辑丨蕨影一场由Sora引发的AI视频生成竞赛,如今迎来新的竞争者!9月24日,2024火山引擎AI创新巡展深圳站上
2024-09-30 13:34:00
视频大模型 快手美图殊途同归
...视频大模型“可灵”并开始邀测,用户输入一段文字即可生成视频。美图宣布将在7月底上线新品MOKI,该产品基于美图奇想大模型的视频生成能力,可帮助用户生成AI短片。不论是做视频还
2024-06-13 23:55:00
蓝色光标Blue AI携手快手可灵AI,共同引领AI视频生成新时代
...色光标宣布与快手可灵AI正式签署战略合作协议,就AI视频生成技术研发、平台合作、场景共建、内容创作优化等多维度展开深入合作,共探AI视频生成的无限潜力。蓝色光标自研AI行业模
2024-09-11 14:48:00
视频生成大模型sora和可灵的区别在哪里?
...称为“世界模拟器”:它理解真实的规则,并在此基础上生成“世界”。如果说从前还是一道铜墙铁壁,那么现在,虚拟与真实可能仅一线之隔。Sora之后,它的挑战者前赴后继。6月,视频生
2024-06-26 14:27:00
对标Sora!快手自研视频生成大模型可灵AI全面开放内测
快科技7月25日消息,日前,快手视频生成大模型可灵AI宣布基础模型升级,并全面开放内测,同时正式上线付费会员体系。用户每日登录都可免费获得66灵感值,可用于兑换可灵AI平台内指定
2024-07-25 07:57:00
大模型的未来,快手在自己身上找答案
...数字人 | 图片来源:视觉中国而另一片场地上,快手视频生成大模型明星「可灵」发布了一系列重磅升级和 AIGC 短剧,台下欢呼声此起彼伏。对外界来说,AI 能力是抽象的,带货主
2024-07-11 14:20:00
快手可灵大模型开放视频续写功能 可生成最长约3分钟视频
本文转自:中国新闻网快手的视频生成大模型“可灵”自面世以来,以其惊艳效果引发了国内外的广泛关注。 6月21日,可灵再度进化,正式推出图生视频功能,支持用任意静态图像生成5s视频,
2024-06-24 19:53:00
更多关于科技的资讯:
10月27日,第三届山西省智能制造推进大会在太原举行。在山西省卓越级智能工厂和智能制造优秀供应商授牌仪式上,太钢不锈钢股份有限公司
2025-10-28 07:23:00
从“复活”一只龙鸟到定义一个产业,越疆用具身智能撬动文化科技新生态
当电影《博物馆奇妙夜》中展品“活”过来的奇幻场景照进现实,一场由科技驱动的文旅产业变革正悄然拉开序幕。近日,越疆初息工厂宣布成功打造全球首个超仿生具身智能体——以多模态具身智能技术“复活”的中华龙鸟
2025-10-28 07:48:00
近400名人才角逐南京市“双创项目”人才“赛马”金陵城,创新与产业双向奔赴□南京日报/紫金山新闻记者 张安琪10月26日
2025-10-28 07:50:00
中国消费者协会与中国物品编码中心合作,于近日在“全国消协智慧315”小程序上线“消协帮您找,扫码辨商品”新功能。该功能依托编码中心国家商品数据库的权威信息
2025-10-28 07:58:00
近日,大金科工(天津)车业有限公司(以下简称“大金科工”)开业仪式在武清开发区举行。大金科工由大行科工(深圳)股份有限公司与金轮集团共同注资成立
2025-10-27 14:11:00
电竞赛事下沉 重构经济文化新生态
第十二届王者荣耀全国大赛举办颁奖礼第十二届王者荣耀全国大赛总决赛落地天津五大道民园广场无畏契约嘉年华 前王者荣耀职业联赛选手刺痛(右)与粉丝合影无畏契约瓦友社迎新季线下活动和平精英村镇赛广东清远站
2025-10-27 14:11:00
据IDC数据显示,2025年中国GEO市场规模突破200亿元,年复合增长率高达67%,超过78%的企业已将GEO纳入品牌增长与智能营销的核心战略
2025-10-27 14:20:00
中国品牌出海:从产品制造向品牌价值跃升
“不出海,就出局。”这句话听起来很极端,但折射出中国制造业在全球化时代的现实处境。今天,中国企业出海,已不再是讨生活般的生存选择
2025-10-27 14:23:00
喜讯!毕节这家电厂获两项国家实用新型专利
多彩贵州网讯(通讯员 田永梅 张仁玉)近日,纳雍电厂自主研发的“一种可移动手持电压波形示波器判断N600中性线断线装置”与“一种新型二次回路防误碰接线端子隔板”两项创新成果
2025-10-27 15:05:00
顺丰超脑2.0获2025 CCF科技成果奖,本年度物流领域唯一!
10月24日,在中国计算机大会(CNCC 2025)的颁奖典礼上,顺丰科技携手深圳大学申报的“面向物流网络的专家智能体+垂域 AI 模型协同决策技术研究与规模化应用”项目脱颖而出
2025-10-27 15:40:00
近日,2025年《财富》中国最佳设计榜单正式揭晓,东软集团全资子公司东软云科技推出的“重塑用药指导体验”创新数字服务实践成功登榜
2025-10-27 15:46:00
“运动健身”交易同比增长超111%!贵州年轻人健康消费升温
记者日前从美团获悉,今年以来,贵州地区各种潮流运动消费需求明显,“运动”关键词搜索量同比增长超51%,其中,“保龄球”搜索量同比增长超181%
2025-10-28 00:32:00
重塑智慧农业新未来 | 潍柴雷沃发布中国首个智慧农业AI大模型
鲁网10月27日讯10月26日,在2025中国国际农业机械展览会上,潍柴雷沃智慧农业AI大模型全场景重磅发布,全面赋能农业生产从播种
2025-10-27 16:21:00
内功修炼+市场开拓 河钢张宣科技镀锌产线强势创效
河北新闻网讯(董佳倩)近日,河钢集团张宣科技传来捷报,其镀锌产线凭借“内功修炼+市场开拓”实现经营创效。9月份,该公司镀锌丝产品销量环比增长77%
2025-10-27 18:01:00
全球合同管理系统市场正以15.5%的年复合增长率狂奔,443.9亿元的庞大市场背后,是AI技术对传统合同管理方式的彻底颠覆
2025-10-27 17:36:00