• 我的订阅
  • 社会

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

类别:社会 发布时间:2025-04-21 13:53:00 来源:缘之心

4月21日,昆仑万维SkyReels团队正式发布并开源SkyReels-V2——首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型,其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion-forcing)框架来实现协同优化。

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

回顾过去一年,视频生成技术在扩散模型和自回归框架的推动下取得了显著进展,但在提示词遵循、视觉质量、运动动态和视频时长的协调上仍面临重大挑战。

现有技术在提升稳定的视觉质量时往往牺牲运动动态效果,为了优先考虑高分辨率而限制视频时长(通常为5-10秒),并且由于通用多模态大语言模型(MLLM)无法解读电影语法(如镜头构图、演员表情和摄像机运动),导致镜头感知生成能力不足。这些相互关联的限制阻碍了长视频的逼真合成和专业电影风格的生成。

为了解决这些痛点,SkyReels-V2应运而生,它不仅在技术上实现了突破,还提供多了多种有用的应用场景,包括故事生成、图生视频、运镜专家和多主体一致性视频生成(SkyReels-A2)。

SkyReels-V2现已支持生成30秒、40秒的视频,且具备生成高运动质量、高一致性、高保真视频的能力。

核心技术创新,迈入“无限时长、影视级质量、精准控制”的全新视频生成阶段

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

SkyReels-V2方法概述

SkyReels-V2能够达到这样的视频生成效果,源于其多项创新技术:

1.全面的影视级视频理解模型:SkyCaptioner-V1

为了提高提示词遵循能力,团队设计了一种结构化的视频表示方法,将多模态LLM的一般描述与子专家模型的详细镜头语言相结合。这种方法能够识别视频中的主体类型、外观、表情、动作和位置等信息,同时通过人工标注和模型训练,进一步提升了对镜头语言的理解能力。

同时,团队训练了一个统一的视频理解模型 SkyCaptioner-V1,它能够高效地理解视频数据,生成符合原始结构信息的多样化描述。通过这种方式,SkyCaptioner-V1不仅能够理解视频的一般内容,还能捕捉到电影场景中的专业镜头语言,从而显著提高了生成视频的提示词遵循能力。此外,这个模型现在已经开源,可以直接使用。

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

在视频理解测试集上的模型综合性能比较中,SkyCaptioner-V1表现优异,超越了SOTA的模型。

2.针对运动的偏好优化

现有的视频生成模型在运动质量上表现不佳,主要原因是优化目标未能充分考虑时序一致性和运动合理性。团队通过强化学习(RL)训练,使用人工标注和合成失真数据,解决了动态扭曲、不合理等问题。为了降低数据标注成本,团队设计了一个半自动数据收集管道,能够高效地生成偏好对比数据对。

通过这种方式,SkyReels-V2在运动动态方面表现优异,能够生成流畅且逼真的视频内容,满足电影制作中对高质量运动动态的需求。

3.高效的扩散强迫框架

为了实现长视频生成能力,团队提出了一种扩散强迫(diffusion forcing)后训练方法。与从零开始训练扩散强迫模型不同,团队通过微调预训练的扩散模型,将其转化为扩散强迫模型。这种方法不仅减少了训练成本,还显著提高了生成效率。

团队采用非递减噪声时间表,将连续帧的去噪时间表搜索空间从 O(1e48)降低到 O(1e32),从而实现了长视频的高效生成。这一创新使得SkyReels-V2能够生成几乎无限时长的高质量视频内容。

4.渐进式分辨率预训练与多阶段后训练优化

为了开发一个专业的影视生成模型,团队的多阶段质量保证框架整合了来自三个主要来源的数据:

通用数据集:整合了开源资源,包括Koala-36M、HumanVid,以及从互联网爬取的额外视频资源。这些数据提供了广泛的基础视频素材,涵盖了多种场景和动作。

自收集媒体:包括280,000多部电影和800,000多集电视剧,覆盖120多个国家(估计总时长超过620万小时)。这些数据为模型提供了丰富的电影风格和叙事结构。

艺术资源库:从互联网获取的高质量视频资产,确保生成内容的视觉质量达到专业标准。

原始数据集规模达到亿级(O(100M)),不同子集根据质量要求在各个训练阶段使用。此外,团队还收集了亿级的概念平衡图像数据,以加速早期训练中生成能力的建立。在此数据基础上,团队首先通过渐进式分辨率预训练建立基础视频生成模型,然后进行四阶段的后续训练增强:

初始概念平衡的监督微调(SFT):通过概念平衡的数据集进行微调,为后续优化提供良好的初始化。

运动特定的强化学习(RL)训练:通过偏好优化提升运动动态质量。

扩散强迫框架(DF):实现长视频生成能力。

高质量SFT:进一步提升视觉保真度。

结合富含影视级别数据和多阶段优化方法,团队确保了SkyReels-V2在资源有限的情况下,高效的稳步提升多方面的表现,达到影视级视频生成的水准。

在SkyReels-Bench和V-Bench评估中,性能表现卓越

为了全面评估SkyReels-V2的性能,团队构建了SkyReels-Bench用于人类评估,并利用开源的V-Bench进行自动化评估。这种双重评估框架使我们能够系统地比较SkyReels-V2和其他最先进的基线模型(包括开源和闭源模型)。

1. SkyReels-Bench评估

SkyReels-Bench包含1020个文本提示词,系统性地评估了四个关键维度:指令遵循、运动质量、一致性和视觉质量。该基准旨在评估文本到视频(T2V)和图像到视频(I2V)生成模型,提供跨不同生成范式的全面评估。

在SkyReels-Bench评估中,SkyReels-V2在指令遵循方面取得了显著进展,同时在保证运动质量的同时不牺牲视频的一致性效果。具体表现如下:

指令遵循:SkyReels-V2在运动指令、主体指令、空间关系、镜头类型、表情和摄像机运动的遵循上均优于基线方法。

运动质量:在运动动态性、流畅性和物理合理性方面,SkyReels-V2表现出色,生成的运动内容自然且多样。

一致性:主体和场景在整个视频中保持高度一致,运动过程有较高的保真度。

视觉质量:生成视频在视觉清晰度、色彩准确性和结构完整性上均达到高水平,无明显扭曲或损坏。

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

在SkyReels-Bench的T2V多维度人工评测集下,SkyReels-V2在指令遵循和一致性得到最高水准,同时在视频质量和运动质量上保持第一梯队。

2. VBench1.0结果

在VBench1.0自动化评估中,SkyReels-V2在总分(83.9%)和质量分(84.7%)上均优于所有对比模型,包括HunyuanVideo-13B和Wan2.1-14B。这一结果进一步验证了SkyReels-V2在生成高保真、指令对齐的视频内容方面的强大能力。

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

在V-bench1.0的长prompt版本下,SkyReels-V2超越了所有的开源模型,包括HunyuanVideo-13B和Wan2.1-14B。

丰富的应用场景,赋能创意实现

SkyReels-V2不仅在技术上实现了突破,还为多个实际应用场景提供了强大的支持:

1.故事生成

SkyReels-V2能够生成理论上无限时长的视频,通过滑动窗口方法,模型在生成新帧时会参考之前生成的帧和文本提示。为了防止错误积累,团队采用了稳定化技术,通过在之前生成的帧上添加轻微噪声来稳定生成过程。这种方法不仅支持时间上的扩展,还能生成具有连贯叙事的长镜头视频。

通过一系列叙事文本提示,SkyReels-V2能够编排一个连贯的视觉叙事,跨越多个动作场景,同时保持视觉一致性。这种能力确保了场景之间的平滑过渡,使得动态叙事更加流畅,而不会影响视觉元素的完整性。这一功能特别适合需要复杂多动作序列的应用,如电影制作和广告创作。

2.图像到视频合成

SkyReels-V2提供了两种图像到视频(I2V)的生成方法:

微调全序列文本到视频(T2V)扩散模型(SkyReels-V2-I2V):通过将输入图像作为条件注入T2V架构中,模型能够利用参考帧进行后续生成。这种方法在384个GPU上仅需10,000次训练迭代即可取得和闭源模型同等级的效果。

扩散强迫模型与帧条件结合(SkyReels-V2-DF):通过将第一帧作为干净的参考条件输入扩散框架,无需显式重新训练即可保持时间一致性。

在SkyReels-Bench的I2V多维度人工评测集下,SkyReels-V2在所有质量维度上均优于其他开源模型,并与闭源模型表现相当。

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

3.摄像导演功能

SkyReels-V2在标注摄像机运动方面表现出色,但团队发现摄像机运动数据的固有不平衡对进一步优化摄影参数提出了挑战。为此,团队专门筛选了约100万个样本,确保基本摄像机运动及其常见组合的平衡表示。通过在384个GPU上进行3,000次迭代的微调实验,团队显著提升了摄影效果,特别是在摄像机运动的流畅性和多样性方面。

4.元素到视频生成

基于SkyReels-V2基座模型,团队研发了SkyReels-A2方案,并提出了一种新的多元素到视频(E2V)任务,能够将任意视觉元素(如人物、物体和背景)组合成由文本提示引导的连贯视频,同时确保对每个元素的参考图像的高保真度。这一功能特别适合短剧、音乐视频和虚拟电商内容创作等应用。

作为首个商业级E2V开源模型,SkyReels-A2在E2V评估Benchmark A2-Bench中的结果表明,其一致性和质量维度上评估与闭源模型相当。未来,团队计划扩展框架以支持更多输入模态,如音频和动作,旨在构建一个统一的视频生成系统,以支持更广泛的应用。

SkyReels-V2的推出标志着视频生成技术迈入了一个新的阶段,为实现高质量、长时间的电影风格视频生成提供了全新的解决方案。它不仅为内容创作者提供了强大的工具,更开启了利用AI进行视频叙事和创意表达的无限可能。

昆仑万维SkyReels团队仍致力于推动视频生成技术的发展,并将SkyCaptioner-V1和SkyReels-V2系列模型(包括扩散强迫、文本到视频、图像到视频、摄像导演和元素到视频模型)的各种尺寸(1.3B、5B、14B)进行完全开源,以促进学术界和工业界的进一步研究和应用。【编辑:刘阳禾】

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-04-21 14:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1,重塑AI短剧行业格局
2月18日,昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1、中国首个SOTA级别基于视频基座模型的表情动作可控算法SkyReels-A1
2025-02-18 11:13:00
AIGC按下昆仑万维的全球化加速度
...海外互联平台找到了一个更好的切合点。12月15日,昆仑万维在北京举行AIGC技术发布会,会上昆仑万维CEO方汉正式发布了昆仑天工AIGC全系列算法与模型
2022-12-19 09:02:00
谁能最早看见AIGC的未来?专访昆仑万维董事长兼CEO方汉丨文娱行业AI巡礼
...相对保守。在国内,以游戏开发和运营为大众熟知的昆仑万维,在行业内率先推出了AI搜索引擎,其完成度还相当高,足以让国内现有的搜索产品感受到一种“跨界”的压力。基于自研的天工大模
2023-10-12 17:44:00
昆仑万维上半年收入25亿,AI应用加速落地,商业化成果显著
8月23日晚间,昆仑万维(300418.SZ)(以下简称“公司”)披露2024年半年度业绩报告。2024年上半年,公司实现营业总收入25亿
2024-08-23 21:16:00
昆仑万维天工大模型成功入选中国信通院《2023 大模型和AIGC产业图谱》
...新浪潮”论坛上,大模型生态合作共同体正式发起,昆仑万维CEO方汉受邀上台参加共同发起仪式,此外还包括阿里云、百度、科大讯飞等企业代表。《2023大模型和AIGC产业图谱》也在
2023-07-10 16:00:00
昆仑万维发布国产版ChatGPT“天工” 今日启动邀请测试
北京时间4月17日,昆仑万维正式发布千亿级大语言模型“天工”,同时宣布即日起启动邀请测试。“天工”由昆仑万维与国内领先的AI团队奇点智源联合研发,是国内首个对标ChatGPT的双
2023-04-17 15:42:00
昆仑万维董事长方汉:文生视频领域的巨大突破
...全球范围内的市场关注。作为国内领先的科技企业,昆仑万维的董事长兼CEO方汉在接受采访时,对该模型给予了高度评价,认为其代表了文生视频领域的巨大进步和突破。方汉指出,OpenA
2024-02-20 03:12:00
4000亿参数,国产大模型硬刚Llama 3?|钛媒体AGI
...)的更大版本Llama 3。然而,就在4月17日,国内AI公司昆仑万维就已正式推出了4000亿参数的“天工3.0”基座开源大模型
2024-04-19 16:00:00
以假乱真,天工音乐大模型带来颠覆式AI体验
昨日,昆仑万维AI音乐生成大模型「天工SkyMusic」开启了免费邀测活动,诚邀媒体、行业专家以及感兴趣的音乐从业者们共同体验人声情感表达 SOTA 的音乐大模型产品
2024-04-03 11:35:00
更多关于社会的资讯:
“医生,能不能不拍片?我听说有辐射!”——在放射科门口,几乎每天都能听见这句话。大家担心辐射可能带来的危害∶致癌、白血病
2025-12-29 05:05:00
无人机“黑飞”或被拘留填补了此前执法依据的空白治安违法行为记录封存破解“一次违法、终身受限”的困境惩教结合体系化干预填补了“罚”与“救”之间的制度空白违法养犬最高可拘留10日填补了以往的法律责任“真空地带”从网络空间到现实社区
2025-12-29 07:33:00
女子遇“杀猪盘”诈骗 代买黄金饰品被民警及时劝阻
央视新闻客户端讯 杀猪盘诈骗常以情感为诱饵,通过虚假感情建立信任关系,从而实施诈骗。就在近日,上海黄浦警方就劝阻一起网恋“杀猪盘”式的电信网络诈骗案
2025-12-28 08:10:00
91岁读者:楼里的老人太需要“外骨骼机器人”了
陈大伯体验外骨骼设备外骨骼机器人正稳步走进现实生活,切实帮助人们站立、行走、登山。杭州程天科技发展有限公司研发的可拼装外骨骼设备
2025-12-28 08:10:00
近日鸡蛋煮多久最好吃的话题引发网友热议营养丰富的鸡蛋你平时吃对了吗?鸡蛋吃多了会导致高胆固醇、高血脂?每周吃几个最健康
2025-12-28 08:11:00
教育“智变” 课堂更“聪明” 家校更融合
厦门一中思明分校设置的AI系统,可智能分析学生运动情况。(资料图/记者 林铭鸿 摄)厦门网讯(厦门日报教育工作室首席专家 佘峥)有人偷偷地往你的卡里打钱——近日
2025-12-28 08:54:00
厦门老年大学举办迎新年暨教学成果展演
柔力球表演《青春永驻》。(记者 林铭鸿 摄)组合表演《盛唐茶韵》。(赵代国 摄) 师生同台表演《世界歌剧名曲联唱》。(记者 林铭鸿 摄)厦门网讯(厦门日报记者 郭睿 通讯员 翁
2025-12-28 08:54:00
全国文学报刊出版界2025“新大众文艺联席会议”暨主题研讨会在西安举行
12月27日,全国文学报刊出版界2025“新大众文艺联席会议”暨主题研讨会在陕西西安举行。会议由中国作协、陕西省委宣传部指导
2025-12-28 11:18:00
因供应商提供虚假声明,唐山师范学院采购合同被撤销
据中国河北政府采购网信息,2025年12月25日,因中标供应商唐山圣迪网络科技有限公司被查实提供虚假材料,中标结果被依法撤销
2025-12-28 11:40:00
接了个电话,杭州男子突然“住院”!妻子却不意外:我支持!
“这是我最轻松的一次救援!”12月22日上午,经过4个多小时的采集,杭州小伙陈有钱成功捐献244毫升造血干细胞混悬液,成为浙江省第1324例
2025-12-28 11:45:00
西安一小区电梯故障 男子疑因踩空坠亡!多部门介入处置
12月27日,陕西省西安市雁塔区紫郡长安小区业主向华商报大风新闻记者反映,该小区发生电梯事故,疑似有人坠亡。小区业主提供的现场照片显示
2025-12-28 11:51:00
20分钟→2分钟!无人机如何为手术“抢”时间?
你可能想象不到,生活中常用于拍摄的无人机,如今已被应用于医疗领域,还能在外科手术中“大显身手”。在上海的医院里,一些手术中切下来的病变组织
2025-12-28 12:47:00
近日男子每天穿破羽绒服超12小时确诊“羽绒肺”的消息引发大众广泛关注这究竟是怎么一回事?每日穿羽绒服,竟确诊“羽绒肺”
2025-12-28 13:17:00
又到吃草莓的季节了!水果摊上红彤彤的草莓格外诱人,但不少人心里直打鼓:这冬天的大草莓,是不是上了很多科技?农残会不会很高
2025-12-28 13:17:00
相信大家一定听过不少厨房里的“小妙招”:蛋炒饭要用冷米饭、饺子馅要朝一个方向搅拌、爽滑的肠粉则非陈米不可……这些代代相传的经验
2025-12-28 13:17:00