• 我的订阅
  • 社会

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

类别:社会 发布时间:2025-04-21 13:53:00 来源:缘之心

4月21日,昆仑万维SkyReels团队正式发布并开源SkyReels-V2——首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型,其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion-forcing)框架来实现协同优化。

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

回顾过去一年,视频生成技术在扩散模型和自回归框架的推动下取得了显著进展,但在提示词遵循、视觉质量、运动动态和视频时长的协调上仍面临重大挑战。

现有技术在提升稳定的视觉质量时往往牺牲运动动态效果,为了优先考虑高分辨率而限制视频时长(通常为5-10秒),并且由于通用多模态大语言模型(MLLM)无法解读电影语法(如镜头构图、演员表情和摄像机运动),导致镜头感知生成能力不足。这些相互关联的限制阻碍了长视频的逼真合成和专业电影风格的生成。

为了解决这些痛点,SkyReels-V2应运而生,它不仅在技术上实现了突破,还提供多了多种有用的应用场景,包括故事生成、图生视频、运镜专家和多主体一致性视频生成(SkyReels-A2)。

SkyReels-V2现已支持生成30秒、40秒的视频,且具备生成高运动质量、高一致性、高保真视频的能力。

核心技术创新,迈入“无限时长、影视级质量、精准控制”的全新视频生成阶段

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

SkyReels-V2方法概述

SkyReels-V2能够达到这样的视频生成效果,源于其多项创新技术:

1.全面的影视级视频理解模型:SkyCaptioner-V1

为了提高提示词遵循能力,团队设计了一种结构化的视频表示方法,将多模态LLM的一般描述与子专家模型的详细镜头语言相结合。这种方法能够识别视频中的主体类型、外观、表情、动作和位置等信息,同时通过人工标注和模型训练,进一步提升了对镜头语言的理解能力。

同时,团队训练了一个统一的视频理解模型 SkyCaptioner-V1,它能够高效地理解视频数据,生成符合原始结构信息的多样化描述。通过这种方式,SkyCaptioner-V1不仅能够理解视频的一般内容,还能捕捉到电影场景中的专业镜头语言,从而显著提高了生成视频的提示词遵循能力。此外,这个模型现在已经开源,可以直接使用。

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

在视频理解测试集上的模型综合性能比较中,SkyCaptioner-V1表现优异,超越了SOTA的模型。

2.针对运动的偏好优化

现有的视频生成模型在运动质量上表现不佳,主要原因是优化目标未能充分考虑时序一致性和运动合理性。团队通过强化学习(RL)训练,使用人工标注和合成失真数据,解决了动态扭曲、不合理等问题。为了降低数据标注成本,团队设计了一个半自动数据收集管道,能够高效地生成偏好对比数据对。

通过这种方式,SkyReels-V2在运动动态方面表现优异,能够生成流畅且逼真的视频内容,满足电影制作中对高质量运动动态的需求。

3.高效的扩散强迫框架

为了实现长视频生成能力,团队提出了一种扩散强迫(diffusion forcing)后训练方法。与从零开始训练扩散强迫模型不同,团队通过微调预训练的扩散模型,将其转化为扩散强迫模型。这种方法不仅减少了训练成本,还显著提高了生成效率。

团队采用非递减噪声时间表,将连续帧的去噪时间表搜索空间从 O(1e48)降低到 O(1e32),从而实现了长视频的高效生成。这一创新使得SkyReels-V2能够生成几乎无限时长的高质量视频内容。

4.渐进式分辨率预训练与多阶段后训练优化

为了开发一个专业的影视生成模型,团队的多阶段质量保证框架整合了来自三个主要来源的数据:

通用数据集:整合了开源资源,包括Koala-36M、HumanVid,以及从互联网爬取的额外视频资源。这些数据提供了广泛的基础视频素材,涵盖了多种场景和动作。

自收集媒体:包括280,000多部电影和800,000多集电视剧,覆盖120多个国家(估计总时长超过620万小时)。这些数据为模型提供了丰富的电影风格和叙事结构。

艺术资源库:从互联网获取的高质量视频资产,确保生成内容的视觉质量达到专业标准。

原始数据集规模达到亿级(O(100M)),不同子集根据质量要求在各个训练阶段使用。此外,团队还收集了亿级的概念平衡图像数据,以加速早期训练中生成能力的建立。在此数据基础上,团队首先通过渐进式分辨率预训练建立基础视频生成模型,然后进行四阶段的后续训练增强:

初始概念平衡的监督微调(SFT):通过概念平衡的数据集进行微调,为后续优化提供良好的初始化。

运动特定的强化学习(RL)训练:通过偏好优化提升运动动态质量。

扩散强迫框架(DF):实现长视频生成能力。

高质量SFT:进一步提升视觉保真度。

结合富含影视级别数据和多阶段优化方法,团队确保了SkyReels-V2在资源有限的情况下,高效的稳步提升多方面的表现,达到影视级视频生成的水准。

在SkyReels-Bench和V-Bench评估中,性能表现卓越

为了全面评估SkyReels-V2的性能,团队构建了SkyReels-Bench用于人类评估,并利用开源的V-Bench进行自动化评估。这种双重评估框架使我们能够系统地比较SkyReels-V2和其他最先进的基线模型(包括开源和闭源模型)。

1. SkyReels-Bench评估

SkyReels-Bench包含1020个文本提示词,系统性地评估了四个关键维度:指令遵循、运动质量、一致性和视觉质量。该基准旨在评估文本到视频(T2V)和图像到视频(I2V)生成模型,提供跨不同生成范式的全面评估。

在SkyReels-Bench评估中,SkyReels-V2在指令遵循方面取得了显著进展,同时在保证运动质量的同时不牺牲视频的一致性效果。具体表现如下:

指令遵循:SkyReels-V2在运动指令、主体指令、空间关系、镜头类型、表情和摄像机运动的遵循上均优于基线方法。

运动质量:在运动动态性、流畅性和物理合理性方面,SkyReels-V2表现出色,生成的运动内容自然且多样。

一致性:主体和场景在整个视频中保持高度一致,运动过程有较高的保真度。

视觉质量:生成视频在视觉清晰度、色彩准确性和结构完整性上均达到高水平,无明显扭曲或损坏。

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

在SkyReels-Bench的T2V多维度人工评测集下,SkyReels-V2在指令遵循和一致性得到最高水准,同时在视频质量和运动质量上保持第一梯队。

2. VBench1.0结果

在VBench1.0自动化评估中,SkyReels-V2在总分(83.9%)和质量分(84.7%)上均优于所有对比模型,包括HunyuanVideo-13B和Wan2.1-14B。这一结果进一步验证了SkyReels-V2在生成高保真、指令对齐的视频内容方面的强大能力。

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

在V-bench1.0的长prompt版本下,SkyReels-V2超越了所有的开源模型,包括HunyuanVideo-13B和Wan2.1-14B。

丰富的应用场景,赋能创意实现

SkyReels-V2不仅在技术上实现了突破,还为多个实际应用场景提供了强大的支持:

1.故事生成

SkyReels-V2能够生成理论上无限时长的视频,通过滑动窗口方法,模型在生成新帧时会参考之前生成的帧和文本提示。为了防止错误积累,团队采用了稳定化技术,通过在之前生成的帧上添加轻微噪声来稳定生成过程。这种方法不仅支持时间上的扩展,还能生成具有连贯叙事的长镜头视频。

通过一系列叙事文本提示,SkyReels-V2能够编排一个连贯的视觉叙事,跨越多个动作场景,同时保持视觉一致性。这种能力确保了场景之间的平滑过渡,使得动态叙事更加流畅,而不会影响视觉元素的完整性。这一功能特别适合需要复杂多动作序列的应用,如电影制作和广告创作。

2.图像到视频合成

SkyReels-V2提供了两种图像到视频(I2V)的生成方法:

微调全序列文本到视频(T2V)扩散模型(SkyReels-V2-I2V):通过将输入图像作为条件注入T2V架构中,模型能够利用参考帧进行后续生成。这种方法在384个GPU上仅需10,000次训练迭代即可取得和闭源模型同等级的效果。

扩散强迫模型与帧条件结合(SkyReels-V2-DF):通过将第一帧作为干净的参考条件输入扩散框架,无需显式重新训练即可保持时间一致性。

在SkyReels-Bench的I2V多维度人工评测集下,SkyReels-V2在所有质量维度上均优于其他开源模型,并与闭源模型表现相当。

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

3.摄像导演功能

SkyReels-V2在标注摄像机运动方面表现出色,但团队发现摄像机运动数据的固有不平衡对进一步优化摄影参数提出了挑战。为此,团队专门筛选了约100万个样本,确保基本摄像机运动及其常见组合的平衡表示。通过在384个GPU上进行3,000次迭代的微调实验,团队显著提升了摄影效果,特别是在摄像机运动的流畅性和多样性方面。

4.元素到视频生成

基于SkyReels-V2基座模型,团队研发了SkyReels-A2方案,并提出了一种新的多元素到视频(E2V)任务,能够将任意视觉元素(如人物、物体和背景)组合成由文本提示引导的连贯视频,同时确保对每个元素的参考图像的高保真度。这一功能特别适合短剧、音乐视频和虚拟电商内容创作等应用。

作为首个商业级E2V开源模型,SkyReels-A2在E2V评估Benchmark A2-Bench中的结果表明,其一致性和质量维度上评估与闭源模型相当。未来,团队计划扩展框架以支持更多输入模态,如音频和动作,旨在构建一个统一的视频生成系统,以支持更广泛的应用。

SkyReels-V2的推出标志着视频生成技术迈入了一个新的阶段,为实现高质量、长时间的电影风格视频生成提供了全新的解决方案。它不仅为内容创作者提供了强大的工具,更开启了利用AI进行视频叙事和创意表达的无限可能。

昆仑万维SkyReels团队仍致力于推动视频生成技术的发展,并将SkyCaptioner-V1和SkyReels-V2系列模型(包括扩散强迫、文本到视频、图像到视频、摄像导演和元素到视频模型)的各种尺寸(1.3B、5B、14B)进行完全开源,以促进学术界和工业界的进一步研究和应用。【编辑:刘阳禾】

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-04-21 14:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1,重塑AI短剧行业格局
2月18日,昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1、中国首个SOTA级别基于视频基座模型的表情动作可控算法SkyReels-A1
2025-02-18 11:13:00
AIGC按下昆仑万维的全球化加速度
...海外互联平台找到了一个更好的切合点。12月15日,昆仑万维在北京举行AIGC技术发布会,会上昆仑万维CEO方汉正式发布了昆仑天工AIGC全系列算法与模型
2022-12-19 09:02:00
谁能最早看见AIGC的未来?专访昆仑万维董事长兼CEO方汉丨文娱行业AI巡礼
...相对保守。在国内,以游戏开发和运营为大众熟知的昆仑万维,在行业内率先推出了AI搜索引擎,其完成度还相当高,足以让国内现有的搜索产品感受到一种“跨界”的压力。基于自研的天工大模
2023-10-12 17:44:00
昆仑万维上半年收入25亿,AI应用加速落地,商业化成果显著
8月23日晚间,昆仑万维(300418.SZ)(以下简称“公司”)披露2024年半年度业绩报告。2024年上半年,公司实现营业总收入25亿
2024-08-23 21:16:00
昆仑万维天工大模型成功入选中国信通院《2023 大模型和AIGC产业图谱》
...新浪潮”论坛上,大模型生态合作共同体正式发起,昆仑万维CEO方汉受邀上台参加共同发起仪式,此外还包括阿里云、百度、科大讯飞等企业代表。《2023大模型和AIGC产业图谱》也在
2023-07-10 16:00:00
昆仑万维发布国产版ChatGPT“天工” 今日启动邀请测试
北京时间4月17日,昆仑万维正式发布千亿级大语言模型“天工”,同时宣布即日起启动邀请测试。“天工”由昆仑万维与国内领先的AI团队奇点智源联合研发,是国内首个对标ChatGPT的双
2023-04-17 15:42:00
昆仑万维董事长方汉:文生视频领域的巨大突破
...全球范围内的市场关注。作为国内领先的科技企业,昆仑万维的董事长兼CEO方汉在接受采访时,对该模型给予了高度评价,认为其代表了文生视频领域的巨大进步和突破。方汉指出,OpenA
2024-02-20 03:12:00
4000亿参数,国产大模型硬刚Llama 3?|钛媒体AGI
...)的更大版本Llama 3。然而,就在4月17日,国内AI公司昆仑万维就已正式推出了4000亿参数的“天工3.0”基座开源大模型
2024-04-19 16:00:00
以假乱真,天工音乐大模型带来颠覆式AI体验
昨日,昆仑万维AI音乐生成大模型「天工SkyMusic」开启了免费邀测活动,诚邀媒体、行业专家以及感兴趣的音乐从业者们共同体验人声情感表达 SOTA 的音乐大模型产品
2024-04-03 11:35:00
更多关于社会的资讯:
2025年国庆、中秋假期烟台市中小学违规办学举报电话公布
齐鲁晚报·齐鲁壹点 李楠楠为保障学生合法休息权益,持续推进规范管理,9月30日,烟台市公布2025年国庆、中秋假期全市中小学违规办学举报电话及邮箱,接受社会监督。2025年国庆、
2025-10-01 10:50:00
花江峡谷大桥旅游区官方预约通道显示,截至9月30日21时30分,花江峡谷大桥景区10月1日和2日预约名额已满。游客计划前往时
2025-10-01 05:29:00
齐鲁晚报·齐鲁壹点 王会广 通讯员 王惠华近日,东明农商银行武胜支行成功拦截一起诈骗汇款,凭借工作人员的专业警觉与高效处置
2025-09-30 16:04:00
企业访谈|威海华坦东非产业园:助200余家鲁企开拓非洲
在本次“万企出海鲁贸全球”国际营销体系推进会上,威海华坦供应链管理有限公司董事长王香云作为非洲市场的国际营销伙伴代表,向与会企业详细介绍了公司在坦桑尼亚投资建设的对非经贸合作平台——东非商贸物流产业园的创新模式和服务体系
2025-09-30 16:04:00
创中国选手历史最好成绩!宁诺学子李优征战UCI公路自行车世锦赛
中国青年报客户端讯(周婉军实习生李成昊中青报·中青网记者王军利)9月21日至28日,2025国际自行车运动联盟(UCI)公路自行车世界锦标赛在卢旺达举行
2025-09-30 16:06:00
航空路小学“七彩光”小记者社团探访八七会议旧址
荆楚网(湖北日报网)讯(记者何鹏 通讯员吴娟)“茫茫九派流中国,沉沉一线穿南北……”9月28日,八七会议旧址纪念馆内,江汉区航空路小学“七彩光”小记者社团的集体朗诵声慷慨激昂
2025-09-30 16:08:00
突破技术壁垒!德州市第七人民医院成功开展首例乳腺活检旋切手术,为患者解忧
鲁网9月30日讯(记者 吴美琳 实习记者 李安琦)9月29日,两腺外科负责人徐君玉带领其团队,成功为一名 68 岁女性患者实施了乳腺活检旋切手术
2025-09-30 16:09:00
鲁网4件作品摘得“金沙滩啤酒城杯”奖项 省级主流媒体以专业传播为青岛啤酒节赋能
鲁网9月30日讯(记者 薛同春)近日,由青岛国际啤酒节西海岸新区组委会办公室与青岛西海岸啤酒文化集团有限公司联合主办的“金沙滩啤酒城杯”优秀宣传作品评选落下帷幕
2025-09-30 16:10:00
三明学院两名教师入选2025年全球前2%顶尖科学家榜单
三明学院信息工程学院教授贾鹤鸣与学生合影。三明学院供图东南网9月30日讯(本网记者 肖晓敏 通讯员 吴爱娣)近日,斯坦福大学和国际权威学术出版社爱思唯尔共同发布2025年全球前2
2025-09-30 16:14:00
“短剧导演熬夜猝死”造谣者被行拘 东阳公安回应:重拳出击网络谣言
大皖新闻讯 9月29日晚,浙江东阳市公安局发布警情通报:日前网上流传的“短剧导演熬夜猝死”信息,经核查,系谣言。9月30日下午
2025-09-30 16:19:00
第二届中华文化与青年领导力论坛在京举行
2025年9月28日,第二届中华文化与青年领导力论坛在北京成功举办。青年兴则国家兴,青年强则国家强。本次论坛旨在共同探索中华优秀传统文化
2025-09-30 16:21:00
全球百名专家学者齐聚 共绘中国传统音乐研究新图景
9月26日至27日,由宁波大学音乐学院与江南音乐文化研究中心主办的“第二届江南音乐文化暨宋元古谱国际学术会议”在宁波大学朱学林报告厅隆重举行
2025-09-30 16:52:00
渡江战役纪念馆、名人馆“十一”举办文化惠民公益活动
大皖新闻讯 国庆中秋假期,合肥渡江战役纪念馆和安徽名人馆都将举办文化惠民公益活动。游客能在此观赏到原创展览、文艺汇演
2025-09-30 16:57:00
笔墨丹青迎国庆 鄠邑区举办国庆书法作品展
9月29日,由鄠邑区文化和旅游体育局主办,鄠邑区文化馆、鄠邑区书法家协会共同承办的“庆祝中华人民共和国成立76周年西安市鄠邑区群文书法作品展”在鄠邑区文化馆开展
2025-09-30 17:05:00
宁河融媒宣讲团:45年的等待 扫码阅读手机版
天津市第三届基层理论宣讲员风采展示活动在革命战争年代,无数仁人志士挺身而出,他们或是风华正茂的青年,或是告别新婚的妻子
2025-09-30 17:10:00