• 我的订阅
  • 社会

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

类别:社会 发布时间:2025-04-21 13:53:00 来源:缘之心

4月21日,昆仑万维SkyReels团队正式发布并开源SkyReels-V2——首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型,其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion-forcing)框架来实现协同优化。

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

回顾过去一年,视频生成技术在扩散模型和自回归框架的推动下取得了显著进展,但在提示词遵循、视觉质量、运动动态和视频时长的协调上仍面临重大挑战。

现有技术在提升稳定的视觉质量时往往牺牲运动动态效果,为了优先考虑高分辨率而限制视频时长(通常为5-10秒),并且由于通用多模态大语言模型(MLLM)无法解读电影语法(如镜头构图、演员表情和摄像机运动),导致镜头感知生成能力不足。这些相互关联的限制阻碍了长视频的逼真合成和专业电影风格的生成。

为了解决这些痛点,SkyReels-V2应运而生,它不仅在技术上实现了突破,还提供多了多种有用的应用场景,包括故事生成、图生视频、运镜专家和多主体一致性视频生成(SkyReels-A2)。

SkyReels-V2现已支持生成30秒、40秒的视频,且具备生成高运动质量、高一致性、高保真视频的能力。

核心技术创新,迈入“无限时长、影视级质量、精准控制”的全新视频生成阶段

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

SkyReels-V2方法概述

SkyReels-V2能够达到这样的视频生成效果,源于其多项创新技术:

1.全面的影视级视频理解模型:SkyCaptioner-V1

为了提高提示词遵循能力,团队设计了一种结构化的视频表示方法,将多模态LLM的一般描述与子专家模型的详细镜头语言相结合。这种方法能够识别视频中的主体类型、外观、表情、动作和位置等信息,同时通过人工标注和模型训练,进一步提升了对镜头语言的理解能力。

同时,团队训练了一个统一的视频理解模型 SkyCaptioner-V1,它能够高效地理解视频数据,生成符合原始结构信息的多样化描述。通过这种方式,SkyCaptioner-V1不仅能够理解视频的一般内容,还能捕捉到电影场景中的专业镜头语言,从而显著提高了生成视频的提示词遵循能力。此外,这个模型现在已经开源,可以直接使用。

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

在视频理解测试集上的模型综合性能比较中,SkyCaptioner-V1表现优异,超越了SOTA的模型。

2.针对运动的偏好优化

现有的视频生成模型在运动质量上表现不佳,主要原因是优化目标未能充分考虑时序一致性和运动合理性。团队通过强化学习(RL)训练,使用人工标注和合成失真数据,解决了动态扭曲、不合理等问题。为了降低数据标注成本,团队设计了一个半自动数据收集管道,能够高效地生成偏好对比数据对。

通过这种方式,SkyReels-V2在运动动态方面表现优异,能够生成流畅且逼真的视频内容,满足电影制作中对高质量运动动态的需求。

3.高效的扩散强迫框架

为了实现长视频生成能力,团队提出了一种扩散强迫(diffusion forcing)后训练方法。与从零开始训练扩散强迫模型不同,团队通过微调预训练的扩散模型,将其转化为扩散强迫模型。这种方法不仅减少了训练成本,还显著提高了生成效率。

团队采用非递减噪声时间表,将连续帧的去噪时间表搜索空间从 O(1e48)降低到 O(1e32),从而实现了长视频的高效生成。这一创新使得SkyReels-V2能够生成几乎无限时长的高质量视频内容。

4.渐进式分辨率预训练与多阶段后训练优化

为了开发一个专业的影视生成模型,团队的多阶段质量保证框架整合了来自三个主要来源的数据:

通用数据集:整合了开源资源,包括Koala-36M、HumanVid,以及从互联网爬取的额外视频资源。这些数据提供了广泛的基础视频素材,涵盖了多种场景和动作。

自收集媒体:包括280,000多部电影和800,000多集电视剧,覆盖120多个国家(估计总时长超过620万小时)。这些数据为模型提供了丰富的电影风格和叙事结构。

艺术资源库:从互联网获取的高质量视频资产,确保生成内容的视觉质量达到专业标准。

原始数据集规模达到亿级(O(100M)),不同子集根据质量要求在各个训练阶段使用。此外,团队还收集了亿级的概念平衡图像数据,以加速早期训练中生成能力的建立。在此数据基础上,团队首先通过渐进式分辨率预训练建立基础视频生成模型,然后进行四阶段的后续训练增强:

初始概念平衡的监督微调(SFT):通过概念平衡的数据集进行微调,为后续优化提供良好的初始化。

运动特定的强化学习(RL)训练:通过偏好优化提升运动动态质量。

扩散强迫框架(DF):实现长视频生成能力。

高质量SFT:进一步提升视觉保真度。

结合富含影视级别数据和多阶段优化方法,团队确保了SkyReels-V2在资源有限的情况下,高效的稳步提升多方面的表现,达到影视级视频生成的水准。

在SkyReels-Bench和V-Bench评估中,性能表现卓越

为了全面评估SkyReels-V2的性能,团队构建了SkyReels-Bench用于人类评估,并利用开源的V-Bench进行自动化评估。这种双重评估框架使我们能够系统地比较SkyReels-V2和其他最先进的基线模型(包括开源和闭源模型)。

1. SkyReels-Bench评估

SkyReels-Bench包含1020个文本提示词,系统性地评估了四个关键维度:指令遵循、运动质量、一致性和视觉质量。该基准旨在评估文本到视频(T2V)和图像到视频(I2V)生成模型,提供跨不同生成范式的全面评估。

在SkyReels-Bench评估中,SkyReels-V2在指令遵循方面取得了显著进展,同时在保证运动质量的同时不牺牲视频的一致性效果。具体表现如下:

指令遵循:SkyReels-V2在运动指令、主体指令、空间关系、镜头类型、表情和摄像机运动的遵循上均优于基线方法。

运动质量:在运动动态性、流畅性和物理合理性方面,SkyReels-V2表现出色,生成的运动内容自然且多样。

一致性:主体和场景在整个视频中保持高度一致,运动过程有较高的保真度。

视觉质量:生成视频在视觉清晰度、色彩准确性和结构完整性上均达到高水平,无明显扭曲或损坏。

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

在SkyReels-Bench的T2V多维度人工评测集下,SkyReels-V2在指令遵循和一致性得到最高水准,同时在视频质量和运动质量上保持第一梯队。

2. VBench1.0结果

在VBench1.0自动化评估中,SkyReels-V2在总分(83.9%)和质量分(84.7%)上均优于所有对比模型,包括HunyuanVideo-13B和Wan2.1-14B。这一结果进一步验证了SkyReels-V2在生成高保真、指令对齐的视频内容方面的强大能力。

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

在V-bench1.0的长prompt版本下,SkyReels-V2超越了所有的开源模型,包括HunyuanVideo-13B和Wan2.1-14B。

丰富的应用场景,赋能创意实现

SkyReels-V2不仅在技术上实现了突破,还为多个实际应用场景提供了强大的支持:

1.故事生成

SkyReels-V2能够生成理论上无限时长的视频,通过滑动窗口方法,模型在生成新帧时会参考之前生成的帧和文本提示。为了防止错误积累,团队采用了稳定化技术,通过在之前生成的帧上添加轻微噪声来稳定生成过程。这种方法不仅支持时间上的扩展,还能生成具有连贯叙事的长镜头视频。

通过一系列叙事文本提示,SkyReels-V2能够编排一个连贯的视觉叙事,跨越多个动作场景,同时保持视觉一致性。这种能力确保了场景之间的平滑过渡,使得动态叙事更加流畅,而不会影响视觉元素的完整性。这一功能特别适合需要复杂多动作序列的应用,如电影制作和广告创作。

2.图像到视频合成

SkyReels-V2提供了两种图像到视频(I2V)的生成方法:

微调全序列文本到视频(T2V)扩散模型(SkyReels-V2-I2V):通过将输入图像作为条件注入T2V架构中,模型能够利用参考帧进行后续生成。这种方法在384个GPU上仅需10,000次训练迭代即可取得和闭源模型同等级的效果。

扩散强迫模型与帧条件结合(SkyReels-V2-DF):通过将第一帧作为干净的参考条件输入扩散框架,无需显式重新训练即可保持时间一致性。

在SkyReels-Bench的I2V多维度人工评测集下,SkyReels-V2在所有质量维度上均优于其他开源模型,并与闭源模型表现相当。

昆仑万维SkyReels团队正式发布并开源SkyReels-V2

3.摄像导演功能

SkyReels-V2在标注摄像机运动方面表现出色,但团队发现摄像机运动数据的固有不平衡对进一步优化摄影参数提出了挑战。为此,团队专门筛选了约100万个样本,确保基本摄像机运动及其常见组合的平衡表示。通过在384个GPU上进行3,000次迭代的微调实验,团队显著提升了摄影效果,特别是在摄像机运动的流畅性和多样性方面。

4.元素到视频生成

基于SkyReels-V2基座模型,团队研发了SkyReels-A2方案,并提出了一种新的多元素到视频(E2V)任务,能够将任意视觉元素(如人物、物体和背景)组合成由文本提示引导的连贯视频,同时确保对每个元素的参考图像的高保真度。这一功能特别适合短剧、音乐视频和虚拟电商内容创作等应用。

作为首个商业级E2V开源模型,SkyReels-A2在E2V评估Benchmark A2-Bench中的结果表明,其一致性和质量维度上评估与闭源模型相当。未来,团队计划扩展框架以支持更多输入模态,如音频和动作,旨在构建一个统一的视频生成系统,以支持更广泛的应用。

SkyReels-V2的推出标志着视频生成技术迈入了一个新的阶段,为实现高质量、长时间的电影风格视频生成提供了全新的解决方案。它不仅为内容创作者提供了强大的工具,更开启了利用AI进行视频叙事和创意表达的无限可能。

昆仑万维SkyReels团队仍致力于推动视频生成技术的发展,并将SkyCaptioner-V1和SkyReels-V2系列模型(包括扩散强迫、文本到视频、图像到视频、摄像导演和元素到视频模型)的各种尺寸(1.3B、5B、14B)进行完全开源,以促进学术界和工业界的进一步研究和应用。【编辑:刘阳禾】

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-04-21 14:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1,重塑AI短剧行业格局
2月18日,昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1、中国首个SOTA级别基于视频基座模型的表情动作可控算法SkyReels-A1
2025-02-18 11:13:00
AIGC按下昆仑万维的全球化加速度
...海外互联平台找到了一个更好的切合点。12月15日,昆仑万维在北京举行AIGC技术发布会,会上昆仑万维CEO方汉正式发布了昆仑天工AIGC全系列算法与模型
2022-12-19 09:02:00
谁能最早看见AIGC的未来?专访昆仑万维董事长兼CEO方汉丨文娱行业AI巡礼
...相对保守。在国内,以游戏开发和运营为大众熟知的昆仑万维,在行业内率先推出了AI搜索引擎,其完成度还相当高,足以让国内现有的搜索产品感受到一种“跨界”的压力。基于自研的天工大模
2023-10-12 17:44:00
昆仑万维上半年收入25亿,AI应用加速落地,商业化成果显著
8月23日晚间,昆仑万维(300418.SZ)(以下简称“公司”)披露2024年半年度业绩报告。2024年上半年,公司实现营业总收入25亿
2024-08-23 21:16:00
昆仑万维天工大模型成功入选中国信通院《2023 大模型和AIGC产业图谱》
...新浪潮”论坛上,大模型生态合作共同体正式发起,昆仑万维CEO方汉受邀上台参加共同发起仪式,此外还包括阿里云、百度、科大讯飞等企业代表。《2023大模型和AIGC产业图谱》也在
2023-07-10 16:00:00
昆仑万维发布国产版ChatGPT“天工” 今日启动邀请测试
北京时间4月17日,昆仑万维正式发布千亿级大语言模型“天工”,同时宣布即日起启动邀请测试。“天工”由昆仑万维与国内领先的AI团队奇点智源联合研发,是国内首个对标ChatGPT的双
2023-04-17 15:42:00
昆仑万维董事长方汉:文生视频领域的巨大突破
...全球范围内的市场关注。作为国内领先的科技企业,昆仑万维的董事长兼CEO方汉在接受采访时,对该模型给予了高度评价,认为其代表了文生视频领域的巨大进步和突破。方汉指出,OpenA
2024-02-20 03:12:00
4000亿参数,国产大模型硬刚Llama 3?|钛媒体AGI
...)的更大版本Llama 3。然而,就在4月17日,国内AI公司昆仑万维就已正式推出了4000亿参数的“天工3.0”基座开源大模型
2024-04-19 16:00:00
以假乱真,天工音乐大模型带来颠覆式AI体验
昨日,昆仑万维AI音乐生成大模型「天工SkyMusic」开启了免费邀测活动,诚邀媒体、行业专家以及感兴趣的音乐从业者们共同体验人声情感表达 SOTA 的音乐大模型产品
2024-04-03 11:35:00
更多关于社会的资讯:
石家庄晋州市入选2025年全国县域商业“领跑县”典型案例
日前,在第四届全球数字贸易博览会举办期间,由商务部主办的“交流互促携手扩消”县域商业创新发展交流活动,发布了2025年全国县域商业“领跑县”典型案例
2025-11-17 11:47:00
本科直升| 中留服更新韩国高等教育机构认证名单:15所院校被移出,5所新纳入
鲁网11月17日讯近日,中国教育部留学服务中心(下称“中留服”)更新了韩国高等教育机构的认证名单,此次调整共涉及20所院校
2025-11-17 11:30:00
为折翼的生命重新插上飞翔的翅膀
鲁网11月17日讯一夜新凉,数日秋风。当梧桐叶开始飘落,身体似乎也最先感知到这季节的变换——那些藏在身体上的伤,是否也在提醒您
2025-11-17 10:58:00
星愿妈妈:让阳光照进心里
鲁网11月17日讯和面、揉团、醒发、蒸制……这些动作在家长的碎片时间里重复了上千遍,却从不曾机械。面粉在指腹间流转的温度
2025-11-17 10:57:00
无棣县棣丰街道棣州社区开展 “雅韵流芳,花悦生活” 主题文化插花活动
鲁网11月17日讯为丰富居民精神文化生活,提升社区文化品质,营造人文宜居的良好氛围,近日,无棣县棣丰街道棣州社区开展了“雅韵流芳
2025-11-17 10:58:00
近日,富德生命人寿永年支公司组织内外勤员工携带水果、挂面、米、面、食用油、纸抽等生活物资,走进永年养老院,看望在院的老人们
2025-11-17 10:17:00
艺术城市建设--国家艺术基金人才培训结业展开幕
2025年11月11日,国家艺术基金2025年度资助项目《艺术城市建设创意与传播人才培训》结业展在中国传媒大学学术中心V10报告厅举行开展仪式
2025-11-17 10:55:00
“十四五”·大图景 小目标|孕妈宝妈的“定心丸”
11月5日,在邯郸市新育幼儿园托大班,老师给孩子们讲绘本故事。 河北日报记者 赵泽众摄11月5日,邯郸市妇幼保健院二楼孕产保健门诊
2025-11-17 08:01:00
400多年前,明代士大夫李之藻与意大利传教士利玛窦,合作绘制了《坤舆万国全图》。这是中国现存最早的彩绘中文版世界地图。如今
2025-11-17 08:01:00
国家建立基本医疗保险制度,旨在为全体参保人提供规范、公平、可持续的医疗保障。如今,医疗保险被越来越多的人关注,但部分参保人在医保待遇享受方面仍然存在认知误区
2025-11-17 08:03:00
11月15日,由华文教育发展中心主办、山西大学承办的“华文教育·华文教师”研习班在太原结课。来自全球19个国家的60位华文教师齐聚太原
2025-11-17 07:08:00
每逢“双11”,预售、满减、秒杀、折扣各种优惠让人眼花缭乱。此刻的你也许还沉浸在“剁手”的快感中,翘首等待自己的“宝贝”送达
2025-11-17 07:51:00
一场由犬只伤人引发的邻里纠纷,最终演变为一死一重伤、一人涉嫌故意伤害被公诉的悲剧。11月13日,山西长治“狗咬人引发的血案”一审在山西长治市中级人民法院开庭审理
2025-11-17 07:51:00
距离“十四五”收官还有不到两个月,各地前三季度经济运行数据陆续揭晓。作为中国经济发展的主力军,GDP万亿城市的表现尤为引人关注
2025-11-17 07:53:00
没花一分钱却得到了一处总价313万元的房产,这对任何人而言,除非“撞大运”、否则无法想象。然而,它却在来西安创业的河南人小谢身上发生了
2025-11-16 07:58:00