• 我的订阅
  • 社会

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

类别:社会 发布时间:2025-04-21 13:53:00 来源:缘之心

4月21日,昆仑万维SkyReels团队正式发布并开源SkyReels-V2——首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型,其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion-forcing)框架来实现协同优化。

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

回顾过去一年,视频生成技术在扩散模型和自回归框架的推动下取得了显著进展,但在提示词遵循、视觉质量、运动动态和视频时长的协调上仍面临重大挑战。

现有技术在提升稳定的视觉质量时往往牺牲运动动态效果,为了优先考虑高分辨率而限制视频时长(通常为5-10秒),并且由于通用多模态大语言模型(MLLM)无法解读电影语法(如镜头构图、演员表情和摄像机运动),导致镜头感知生成能力不足。这些相互关联的限制阻碍了长视频的逼真合成和专业电影风格的生成。

为了解决这些痛点,SkyReels-V2应运而生,它不仅在技术上实现了突破,还提供多了多种有用的应用场景,包括故事生成、图生视频、运镜专家和多主体一致性视频生成(SkyReels-A2)。

SkyReels-V2现已支持生成30秒、40秒的视频,且具备生成高运动质量、高一致性、高保真视频的能力。

核心技术创新,迈入“无限时长、影视级质量、精准控制”的全新视频生成阶段

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

SkyReels-V2方法概述

SkyReels-V2能够达到这样的视频生成效果,源于其多项创新技术:

1.全面的影视级视频理解模型:SkyCaptioner-V1

为了提高提示词遵循能力,团队设计了一种结构化的视频表示方法,将多模态LLM的一般描述与子专家模型的详细镜头语言相结合。这种方法能够识别视频中的主体类型、外观、表情、动作和位置等信息,同时通过人工标注和模型训练,进一步提升了对镜头语言的理解能力。

同时,团队训练了一个统一的视频理解模型 SkyCaptioner-V1,它能够高效地理解视频数据,生成符合原始结构信息的多样化描述。通过这种方式,SkyCaptioner-V1不仅能够理解视频的一般内容,还能捕捉到电影场景中的专业镜头语言,从而显著提高了生成视频的提示词遵循能力。此外,这个模型现在已经开源,可以直接使用。

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

在视频理解测试集上的模型综合性能比较中,SkyCaptioner-V1表现优异,超越了SOTA的模型。

2.针对运动的偏好优化

现有的视频生成模型在运动质量上表现不佳,主要原因是优化目标未能充分考虑时序一致性和运动合理性。团队通过强化学习(RL)训练,使用人工标注和合成失真数据,解决了动态扭曲、不合理等问题。为了降低数据标注成本,团队设计了一个半自动数据收集管道,能够高效地生成偏好对比数据对。

通过这种方式,SkyReels-V2在运动动态方面表现优异,能够生成流畅且逼真的视频内容,满足电影制作中对高质量运动动态的需求。

3.高效的扩散强迫框架

为了实现长视频生成能力,团队提出了一种扩散强迫(diffusion forcing)后训练方法。与从零开始训练扩散强迫模型不同,团队通过微调预训练的扩散模型,将其转化为扩散强迫模型。这种方法不仅减少了训练成本,还显著提高了生成效率。

团队采用非递减噪声时间表,将连续帧的去噪时间表搜索空间从 O(1e48)降低到 O(1e32),从而实现了长视频的高效生成。这一创新使得SkyReels-V2能够生成几乎无限时长的高质量视频内容。

4.渐进式分辨率预训练与多阶段后训练优化

为了开发一个专业的影视生成模型,团队的多阶段质量保证框架整合了来自三个主要来源的数据:

通用数据集:整合了开源资源,包括Koala-36M、HumanVid,以及从互联网爬取的额外视频资源。这些数据提供了广泛的基础视频素材,涵盖了多种场景和动作。

自收集媒体:包括280,000多部电影和800,000多集电视剧,覆盖120多个国家(估计总时长超过620万小时)。这些数据为模型提供了丰富的电影风格和叙事结构。

艺术资源库:从互联网获取的高质量视频资产,确保生成内容的视觉质量达到专业标准。

原始数据集规模达到亿级(O(100M)),不同子集根据质量要求在各个训练阶段使用。此外,团队还收集了亿级的概念平衡图像数据,以加速早期训练中生成能力的建立。在此数据基础上,团队首先通过渐进式分辨率预训练建立基础视频生成模型,然后进行四阶段的后续训练增强:

初始概念平衡的监督微调(SFT):通过概念平衡的数据集进行微调,为后续优化提供良好的初始化。

运动特定的强化学习(RL)训练:通过偏好优化提升运动动态质量。

扩散强迫框架(DF):实现长视频生成能力。

高质量SFT:进一步提升视觉保真度。

结合富含影视级别数据和多阶段优化方法,团队确保了SkyReels-V2在资源有限的情况下,高效的稳步提升多方面的表现,达到影视级视频生成的水准。

在SkyReels-Bench和V-Bench评估中,性能表现卓越

为了全面评估SkyReels-V2的性能,团队构建了SkyReels-Bench用于人类评估,并利用开源的V-Bench进行自动化评估。这种双重评估框架使我们能够系统地比较SkyReels-V2和其他最先进的基线模型(包括开源和闭源模型)。

1. SkyReels-Bench评估

SkyReels-Bench包含1020个文本提示词,系统性地评估了四个关键维度:指令遵循、运动质量、一致性和视觉质量。该基准旨在评估文本到视频(T2V)和图像到视频(I2V)生成模型,提供跨不同生成范式的全面评估。

在SkyReels-Bench评估中,SkyReels-V2在指令遵循方面取得了显著进展,同时在保证运动质量的同时不牺牲视频的一致性效果。具体表现如下:

指令遵循:SkyReels-V2在运动指令、主体指令、空间关系、镜头类型、表情和摄像机运动的遵循上均优于基线方法。

运动质量:在运动动态性、流畅性和物理合理性方面,SkyReels-V2表现出色,生成的运动内容自然且多样。

一致性:主体和场景在整个视频中保持高度一致,运动过程有较高的保真度。

视觉质量:生成视频在视觉清晰度、色彩准确性和结构完整性上均达到高水平,无明显扭曲或损坏。

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

在SkyReels-Bench的T2V多维度人工评测集下,SkyReels-V2在指令遵循和一致性得到最高水准,同时在视频质量和运动质量上保持第一梯队。

2. VBench1.0结果

在VBench1.0自动化评估中,SkyReels-V2在总分(83.9%)和质量分(84.7%)上均优于所有对比模型,包括HunyuanVideo-13B和Wan2.1-14B。这一结果进一步验证了SkyReels-V2在生成高保真、指令对齐的视频内容方面的强大能力。

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

在V-bench1.0的长prompt版本下,SkyReels-V2超越了所有的开源模型,包括HunyuanVideo-13B和Wan2.1-14B。

丰富的应用场景,赋能创意实现

SkyReels-V2不仅在技术上实现了突破,还为多个实际应用场景提供了强大的支持:

1.故事生成

SkyReels-V2能够生成理论上无限时长的视频,通过滑动窗口方法,模型在生成新帧时会参考之前生成的帧和文本提示。为了防止错误积累,团队采用了稳定化技术,通过在之前生成的帧上添加轻微噪声来稳定生成过程。这种方法不仅支持时间上的扩展,还能生成具有连贯叙事的长镜头视频。

通过一系列叙事文本提示,SkyReels-V2能够编排一个连贯的视觉叙事,跨越多个动作场景,同时保持视觉一致性。这种能力确保了场景之间的平滑过渡,使得动态叙事更加流畅,而不会影响视觉元素的完整性。这一功能特别适合需要复杂多动作序列的应用,如电影制作和广告创作。

2.图像到视频合成

SkyReels-V2提供了两种图像到视频(I2V)的生成方法:

微调全序列文本到视频(T2V)扩散模型(SkyReels-V2-I2V):通过将输入图像作为条件注入T2V架构中,模型能够利用参考帧进行后续生成。这种方法在384个GPU上仅需10,000次训练迭代即可取得和闭源模型同等级的效果。

扩散强迫模型与帧条件结合(SkyReels-V2-DF):通过将第一帧作为干净的参考条件输入扩散框架,无需显式重新训练即可保持时间一致性。

在SkyReels-Bench的I2V多维度人工评测集下,SkyReels-V2在所有质量维度上均优于其他开源模型,并与闭源模型表现相当。

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

3.摄像导演功能

SkyReels-V2在标注摄像机运动方面表现出色,但团队发现摄像机运动数据的固有不平衡对进一步优化摄影参数提出了挑战。为此,团队专门筛选了约100万个样本,确保基本摄像机运动及其常见组合的平衡表示。通过在384个GPU上进行3,000次迭代的微调实验,团队显著提升了摄影效果,特别是在摄像机运动的流畅性和多样性方面。

4.元素到视频生成

基于SkyReels-V2基座模型,团队研发了SkyReels-A2方案,并提出了一种新的多元素到视频(E2V)任务,能够将任意视觉元素(如人物、物体和背景)组合成由文本提示引导的连贯视频,同时确保对每个元素的参考图像的高保真度。这一功能特别适合短剧、音乐视频和虚拟电商内容创作等应用。

作为首个商业级E2V开源模型,SkyReels-A2在E2V评估Benchmark A2-Bench中的结果表明,其一致性和质量维度上评估与闭源模型相当。未来,团队计划扩展框架以支持更多输入模态,如音频和动作,旨在构建一个统一的视频生成系统,以支持更广泛的应用。

SkyReels-V2的推出标志着视频生成技术迈入了一个新的阶段,为实现高质量、长时间的电影风格视频生成提供了全新的解决方案。它不仅为内容创作者提供了强大的工具,更开启了利用AI进行视频叙事和创意表达的无限可能。

昆仑万维SkyReels团队仍致力于推动视频生成技术的发展,并将SkyCaptioner-V1和SkyReels-V2系列模型(包括扩散强迫、文本到视频、图像到视频、摄像导演和元素到视频模型)的各种尺寸(1.3B、5B、14B)进行完全开源,以促进学术界和工业界的进一步研究和应用。【编辑:刘阳禾】

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-04-21 14:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1,重塑AI短剧行业格局
2月18日,昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1、中国首个SOTA级别基于视频基座模型的表情动作可控算法SkyReels-A1
2025-02-18 11:13:00
AIGC按下昆仑万维的全球化加速度
...海外互联平台找到了一个更好的切合点。12月15日,昆仑万维在北京举行AIGC技术发布会,会上昆仑万维CEO方汉正式发布了昆仑天工AIGC全系列算法与模型
2022-12-19 09:02:00
谁能最早看见AIGC的未来?专访昆仑万维董事长兼CEO方汉丨文娱行业AI巡礼
...相对保守。在国内,以游戏开发和运营为大众熟知的昆仑万维,在行业内率先推出了AI搜索引擎,其完成度还相当高,足以让国内现有的搜索产品感受到一种“跨界”的压力。基于自研的天工大模
2023-10-12 17:44:00
昆仑万维上半年收入25亿,AI应用加速落地,商业化成果显著
8月23日晚间,昆仑万维(300418.SZ)(以下简称“公司”)披露2024年半年度业绩报告。2024年上半年,公司实现营业总收入25亿
2024-08-23 21:16:00
昆仑万维天工大模型成功入选中国信通院《2023 大模型和AIGC产业图谱》
...新浪潮”论坛上,大模型生态合作共同体正式发起,昆仑万维CEO方汉受邀上台参加共同发起仪式,此外还包括阿里云、百度、科大讯飞等企业代表。《2023大模型和AIGC产业图谱》也在
2023-07-10 16:00:00
昆仑万维发布国产版ChatGPT“天工” 今日启动邀请测试
北京时间4月17日,昆仑万维正式发布千亿级大语言模型“天工”,同时宣布即日起启动邀请测试。“天工”由昆仑万维与国内领先的AI团队奇点智源联合研发,是国内首个对标ChatGPT的双
2023-04-17 15:42:00
昆仑万维董事长方汉:文生视频领域的巨大突破
...全球范围内的市场关注。作为国内领先的科技企业,昆仑万维的董事长兼CEO方汉在接受采访时,对该模型给予了高度评价,认为其代表了文生视频领域的巨大进步和突破。方汉指出,OpenA
2024-02-20 03:12:00
4000亿参数,国产大模型硬刚Llama 3?|钛媒体AGI
...)的更大版本Llama 3。然而,就在4月17日,国内AI公司昆仑万维就已正式推出了4000亿参数的“天工3.0”基座开源大模型
2024-04-19 16:00:00
以假乱真,天工音乐大模型带来颠覆式AI体验
昨日,昆仑万维AI音乐生成大模型「天工SkyMusic」开启了免费邀测活动,诚邀媒体、行业专家以及感兴趣的音乐从业者们共同体验人声情感表达 SOTA 的音乐大模型产品
2024-04-03 11:35:00
更多关于社会的资讯:
春节前夕让社区“小虎子”体验非遗
河北新闻网讯(安媛)春节将至,年味渐浓。2月4日,秦皇岛市海港区新世纪社区联合海港区武术协会举办了一场别开生面的非遗活动
2026-02-07 21:06:00
邢台市襄都区:银龄挥毫送祝福
河北新闻网讯(靳淑慧)新春年味浓,墨香暖人心。2月4日上午,邢台市襄都区委老干部局、区委编办、区老研会在清风楼府前南街开展“银龄挥毫送祝福”新春惠民活动
2026-02-07 20:53:00
正月初六上午,蚌埠部分婚姻登记处办理结婚登记
大皖新闻讯 2月7日,记者从蚌埠市民政局获悉,为满足新人们在新春佳节办理结婚登记的愿望,提升为民服务温度,该市部分婚姻登记处将在2月22日(正月初六)上午加班开放
2026-02-07 20:13:00
中国现代文学馆2025年共接收文学资料捐赠2万余件
中国青年报客户端讯(中青报·中青网记者沈杰群)日前,中国现代文学馆在京举行2025年度“文心相印文脉流芳”捐赠答谢会。“人民艺术家”王蒙
2026-02-07 20:01:00
“燕赵楷模发布厅”发布首钢智新高端软磁材料产销研团队先进事迹。
2026-02-07 18:40:00
安庆籍女大学生勤工俭学捐助困境学子
大皖新闻讯 2月7日,一位特别的“客人”走进了怀宁县洪铺镇新岗村。西南民族大学2022级统计学专业本科生陈思羽将自己寒假勤工俭学挣得的1600元全部捐出
2026-02-07 19:06:00
古城千载书华章 文脉赓续再扬帆——《何以台儿庄》新书发布会暨座谈会举行
鲁网2月7日讯(记者 杜伟 通讯员 武斌)2月6日,古城千载书华章 文脉赓续再扬帆——《何以台儿庄》新书发布会暨座谈会在台儿庄区举行
2026-02-07 19:24:00
山西朔州山阴县一企业车间发生爆炸,致5人遇难,原因正在调查
记者从山西省朔州市山阴县相关部门了解到,2月7日凌晨,山阴县佳鹏生物科技有限公司一车间发生爆炸。经全力搜救,截至2月7日10时38分
2026-02-07 17:24:00
集宁“村晚”不能没我 小舞台溢出乡村振兴“烟火气”
中国青年报客户端讯(赵晓敏庞龙中青报·中青网记者石佳)近日,由内蒙古乌兰察布市集宁区委宣传部策划推出的乡村振兴题材短剧《集宁“村晚”不能没我》正式完成拍摄
2026-02-07 18:31:00
河北涿州大街小巷挂上了黄色灯笼,有人觉得“有点怪异”
2月5日,有商户发视频称,保定涿州大街小巷挂上了黄色灯笼,不知有啥寓意。评论区有2万多人参与讨论,有人觉得黄灯笼寓意富贵吉祥
2026-02-07 17:00:00
鲁网2月7日讯春节将至,年味渐浓。为回馈广大客户长期以来的支持与信赖,近日,兴业银行济南分行在临沂分行营业部成功举办了“迎新春 送福字”活动
2026-02-07 15:24:00
贵州日报天眼新闻记者 周璇发自米兰视频制作 彭启云二审 黄国平三审 田旻佳
2026-02-07 15:34:00
贵州日报天眼新闻记者 周璇发自米兰视频制作 李舒涵二审 黄国平三审 田旻佳
2026-02-07 15:35:00
超600万被执行,河北建设集团天辰建筑工程公司2月9日新案开庭
证券之星消息,根据天眼查APP显示,近日公布了一则河北建设集团天辰建筑工程有限公司作为被告/被上诉人的开庭公告,详细内容如下
2026-02-07 16:47:00
全国各省市中小学寒假启幕,各大医院儿童生长发育门诊迎来就诊高峰,孩子的身高、体重、性发育等问题成为家长热议焦点。恰逢新版国家医保药品目录全面落地
2026-02-07 16:48:00