• 我的订阅
  • 科技

RTX3090可跑,360AI团队开源视频模型FancyVideo,红衣大叔都说好

类别:科技 发布时间:2024-08-27 09:52:00 来源:机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

论文作者之一 Ao Ma,硕士毕业于中科院计算所,曾在 MSRA 视觉计算组和阿里通义实验室进行学术研究和算法落地工作。目前是奇虎 360-AIGC 团队-视频生成方向负责人,长期致力于视觉生成方向研究和落地,以及开源社区建设。

近日,开源社区又迎来一款强力的「视频生成」工作,可以在消费级显卡 (如 GeForce RTX 3090) 上生成任意分辨率、任意宽高比、不同风格、不同运动幅度的视频,其衍生模型还能够完成视频扩展、视频回溯的功能…… 这便是 360AI 团队和中山大学联合研发的 FancyVideo,一种基于 UNet 架构的视频生成模型。

作者基于已经开源的 61 帧模型,实测效果如下。

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650931627&idx=5&sn=d5b7c4782075465afe068d6f10d96b1a&chksm=84e7c5d5b3904cc32041e9b1f3a99fe5231513556762a7dde039fe5563a730cdd6dd9b69f1ad&token=467310321⟨=zh_CN#rd

RTX3090可跑,360AI团队开源视频模型FancyVideo,红衣大叔都说好

论文地址:https://arxiv.org/abs/2408.08189 项目主页:https://fancyvideo.github.io/ 代码仓库:https://github.com/360CVGroup/FancyVideo 论文标题:FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance

跨帧文本引导模块

作者在进行视频生成研究过程中,发现现有的文本到视频(T2V)工作通常会采用空间交叉注意力(Spatial Cross Attention),将文本等价地引导至不同帧的生成过程中,缺乏对不同帧灵活性的文本引导(如下图左)。这会导致模型理解提示词所传达的时间逻辑和生成具有连续运动视频的能力受到限制。

FancyVideo 正是从这一角度切入,特殊设计了跨帧文本引导模块(Cross-frame Textual Guidance Module, CTGM, 如下图右)改进了现有文本控制机制。

具体来说,CTGM 包含 3 个子模块:

时序信息注入器(Temporal Information Injector, TII)-- 将来自潜在特征的帧特定信息注入文本条件中,从而获得跨帧文本条件; 时序特征提取器(Temporal Affinity Refiner, TAR)-- 沿时间维度细化跨帧文本条件与潜在特征之间的相关矩阵; 时序特征增强器(Temporal Feature Booster, TFB)-- 增强了潜在特征的时间一致性。

RTX3090可跑,360AI团队开源视频模型FancyVideo,红衣大叔都说好

FancyVideo 训练流程

FancyVideo 整体训练 Pipeline 如下所示。其中在模型结构方面,FancyVideo 选择在 2D T2I 模型基础上插入时序层和基于 CTGM 的运动性模块的方式构造 T2V 模型。在生成视频时,先进行 T2I 操作生成首帧,再进行 I2V。这既保存了 T2I 模型的能力,使视频整体画质变高,又大大减少了训练代价。

此外,为实现运动控制的能力,FancyVideo 在训练阶段将基于 RAFT 提取视频运动信息和 time embedding 一起注入到网络中。

RTX3090可跑,360AI团队开源视频模型FancyVideo,红衣大叔都说好

实验结果

作者通过定量和定性两个方面对模型效果进行评估。他们首先在 EvalCrafter Benchmark 上比较了 FancyVideo 和其他 T2V 模型,可以看到 FancyVideo 在视频生成质量、文本一致性、运动性和时序一致性方面均处于领先位置。

RTX3090可跑,360AI团队开源视频模型FancyVideo,红衣大叔都说好

论文还在 UCF-101 和 MSR-VTT Benchmark 上进行了 Zero-shot 的评测,在衡量生成视频丰富性的 IS 指标和文本一致性的 CLIPSIM 指标均取得了 SOTA 结果。

RTX3090可跑,360AI团队开源视频模型FancyVideo,红衣大叔都说好

此外,论文还基于 FancyVideo 模型的 T2V 和 I2V 能力分别和前人方法进行了人工评测,结果显示在视频生成质量、文本一致性、运动性和时序一致性角度 FancyVideo 均处于领先。

RTX3090可跑,360AI团队开源视频模型FancyVideo,红衣大叔都说好

最后,论文中采用消融实验探究了 CTGM 的不同子模块对于视频生成结果的影响,以验证各个子模块的合理性和有效性。

RTX3090可跑,360AI团队开源视频模型FancyVideo,红衣大叔都说好

应用场景

基于这种训练 pipline 和策略,FancyVideo 可以同时完成 T2V 和 I2V 功能,还可以在生成关键关键帧的基础上进行插帧操作:

RTX3090可跑,360AI团队开源视频模型FancyVideo,红衣大叔都说好

视频扩展、视频回溯操作:

RTX3090可跑,360AI团队开源视频模型FancyVideo,红衣大叔都说好

FancyVideo 上线开源社区不到一周,已经有手快的同学自发搭建了 FancyVideo 的 ComfyUI 插件,让大家可以在自己的机器上玩的开心。

RTX3090可跑,360AI团队开源视频模型FancyVideo,红衣大叔都说好

此外,据作者了解,后续 FancyVideo 团队除了会放出更长、效果更好的模型到开源社区,还计划上线网页版本供大家【免费】使用。在 AIGC 时代,人人都是「能诗会画」的艺术家。

结论

相比于 SORA 类视频生成「产品」的发展,开源社区中视频生成模型的更新和迭代显得略微缓慢,FancyVideo 的发布也给了普通用户更多选择。相信在社区小伙伴共同的努力下,视频生成这一目前看上去费时费力的任务,能够成为更多普通小伙伴日常生活、工作中的工具。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-27 15:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

文|DataEye研究院近日,由周鸿祎出演的首部AI短剧《红衣大叔用AI带我穿越》已正式上线。值得注意的是,周鸿祎的两部短剧均出自西安达林内容量子网络科技有限公司之手。DataE
2025-03-03 10:48:00
快手可灵团队最新开源项目火了:大叔实时变身少女 GitHub狂揽7.5K星
...离大谱!!不看视频完整版谁知道里面的美少女竟是一位大叔。好嘛,原来这是用了快手可灵团队的可控人像视频生成框架——LivePortrait
2024-07-23 23:25:00
...加载中》。360集团创始人周鸿祎也亲自下场参演了短剧《红衣大叔用AI带我穿越》。记者梳理发现,目前AI短剧作品往往集中在玄幻、科幻、奇幻“三幻”题材,发挥了AI在生成震撼的战
2025-05-22 09:50:00
《红衣大叔用AI带我穿越》:技术背后的叙事迷失|微剧评
...创,探索微短剧文艺评论的新视角。本篇聚焦AI微短剧《红衣大叔用AI带我穿越》。主演 黄奕、周鸿祎、胡冬晴、王宇峰/集数 6作为一部以AI技术为核心卖点的实验性短剧,《红衣大叔
2025-03-06 13:18:00
叫板Sora出圈后,Luma AI如何接住泼天的流量?
...的。你会发现,ChatGPT不光最好的程序员在用,你隔壁的大叔大妈也在用。我觉得AI工具带来的最大的变化是,由于它本身的可塑性和灵活性,它可以服务几乎所有有视觉需求的人。我并
2024-11-27 13:37:00
AI短剧开始付费,以后拍戏演员都不用请了?
...圈的周鸿祎拿出了新的解法。2月25日,他的首部AI短剧《红衣大叔用AI带我穿越》上线,由他本人主演、演员黄奕客串、DeepSeek参与编剧
2025-03-06 21:06:00
360集团董事长周鸿祎:“超级员工” 是这样炼成的
...董事长、首席执行官周鸿祎亮相论坛作主题演讲。有着“红衣大叔”之称的他,一改平日红色T恤的穿搭,身着深色西装、红色领带。10分钟的演讲,“智能体”出现62次。周鸿祎在“拥抱智能
2025-09-17 08:35:00
“要不是有你们,我可能就没有爸爸了”
...跑了起来,跑了几步才看到前面围了好几个人,一位穿着红衣的大叔躺在路边。周艳荣迅速蹲下,呼唤了大叔好几声都没有回应,她立刻抬起大叔的头,打开口腔清理大叔口中的秽物,李炜则迅速摸
2024-05-13 16:46:00
类Sora模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘
视频生成模型虽然可以生成一些看似符合常识的视频,但被证实目前还无法理解物理规律!自从 Sora 横空出世,业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Y
2024-11-09 09:59:00
更多关于科技的资讯:
发展新质生产力 推进新型工业化11月18日至25日,全球半导体行业盛会——德国慕尼黑半导体展览会隆重举行。总部位于太原的山西天成半导体材料有限公司受邀参展
2025-11-20 06:54:00
第二届雷克沙杯高校电竞挑战赛总决赛落幕
2025年11月16日,2025雷克沙杯高校电竞挑战赛全国总决赛于“电竞重镇”成都圆满收官。本届赛事由国际高端消费类存储品牌雷克沙主办
2025-11-19 08:26:00
厦门网讯(厦门日报记者 谢瑞真)新闻工作者普遍面临用眼过度、睡眠不足等问题,长时间用眼导致眼部健康问题频发。昨日,国内首份聚焦媒体从业者的眼健康报告——《厦门市新闻工作者眼健康白皮书》(以下简称“白皮书”)正式发布
2025-11-19 08:46:00
邮储银行临沂市蒙阴县支行成功举办“智享理财 共筑财富”主题沙龙活动
鲁网11月18日讯为积极践行“金融为民”服务理念,精准满足广大客户多元化财富管理需求,搭建专业高效的金融交流平台,近日
2025-11-19 09:27:00
“具身智能”开辟青年创业新赛道
原标题:政策东风助力产业发展 年轻团队研发“灵巧手” 产品销量一年增长五倍“具身智能”开辟青年创业新赛道11月17日,中国共产党北京市第十三届委员会第七次全体会议召开
2025-11-19 10:57:00
大皖新闻讯 11月19日,记者从合肥市召开的新闻发布会获悉,“十四五”以来,合肥市以科技创新引领产业创新,获批2个国家级制造业创新中心
2025-11-19 14:05:00
“双十一”最后一公里日均单量远超去年峰值,顺丰同城联动无人车、公交车末端提效
第17个“双十一”落幕,星图数据显示,本届大促综合电商平台销售额为1.619万亿元,同比增长12.3%;即时零售成为今年最大黑马
2025-11-19 14:28:00
阿里千问App支持119种语言,上线全新实时翻译能力
11月19日,阿里千问App在公测三天后,迅速推出多项翻译能力升级。基于Qwen模型的多语言能力,千问App推出全新实时翻译功能
2025-11-19 14:55:00
再绽国际舞台!柏星龙创意包装斩获2025年度五项Pentawards大奖
摘要:2025年Pentawards全球获奖名单揭晓,深圳市柏星龙创意包装股份有限公司报送的五件作品从全球数千件参赛作品中突围
2025-11-19 16:37:00
中新经纬11月19日电 11月19日,工业和信息化部举行新闻发布会,介绍GB 6675《玩具安全》系列强制性国家标准修订情况
2025-11-19 16:58:00
你开店,我出钱!郑州用“青春计划”留住年轻人
大河网讯(记者 赵檬)11月18日,由共青团郑州市委联合市委金融办、市人社局等六部门推出的“商都新活力·青春小店成长计划”正式启动
2025-11-19 17:01:00
鲁网11月19日讯2025年11月1日至2025年11月30日,中国银行泰安分行开展“臻享新户礼遇,尽享美好生活”主题活动
2025-11-19 17:14:00
为啥爆款短剧都爱用它?
大河网讯(记者 赵檬)打开手机刷几分钟短剧,早已成为不少人碎片时间的标配。从手机拍摄到专业设备加持,从流量博弈到内容为王
2025-11-19 17:32:00
2025年11月8日窪田制药控股株式会社为应对全球日益严重的“近视”问题,作为眼科医疗解决方案公司,窪田制药控股株式会社(总部
2025-11-19 20:39:00
三大核心价值赋能,浪潮海岳智能服务平台为企业运维保驾护航
在数智化转型加速推进的今天,企业运维正面临前所未有的挑战。传统运维模式响应慢、协作难、效率低,难以支撑业务的快速发展;运维环节中的流程堵点与系统孤岛
2025-11-19 22:02:00