• 我的订阅
  • 科技

4090单卡可跑,6秒直出电影级画质,智谱版Sora正式开源!

类别:科技 发布时间:2024-08-07 09:43:00 来源:新智元

4090单卡可跑,6秒直出电影级画质,智谱版Sora正式开源!

【新智元导读】国内首个人人可用的国产Sora「清影」,已经引起了AI视频圈的轰动!才发布6天,生成视频数就已经破百万。并且,智谱AI也将同源的视频生产模型CogVideoX,一并开源了。

7月26日,智谱发布AI 生视频产品「清影」,30秒将任意文图生成视频,并上线在他们的AI助手「智谱清言」上,被誉为是国内首个人人可用的Sora。

就在发布6天后,「清影」生成到视频数便已突破了百万量级。

今天,智谱AI宣布将与「清影」同源的视频生成模型——CogVideoX正式开源。

团队表示,希望每一位开发者、每一家企业都能自由地开发属于自己的视频生成模型,从而推动整个行业的快速迭代与创新发展。

4090单卡可跑,6秒直出电影级画质,智谱版Sora正式开源!

打开AI助手「智谱清言」即可体验

随着大型模型技术的持续发展,视频生成技术正逐步走向成熟。

以Sora、Gen-3等闭源视频生成模型为代表的技术,正在重新定义行业的未来格局。

然而,截至目前,仍未有一个开源的视频生成模型,能够满足商业级应用的要求。

CogVideoX系列包含多个不同尺寸大小的开源模型。

目前已经开源的CogVideoX-2B,提示词上限为226个token,视频长度为6秒,帧率为8帧/秒,视频分辨率为720×480。

它在FP-16精度下的推理仅需18GB显存,微调则只需要40GB显存。这意味着单张4090显卡即可进行推理,而单张A6000显卡即可完成微调。

代码仓库:https://github.com/THUDM/CogVideo

模型下载:https://huggingface.co/THUDM/CogVideoX-2b

技术报告:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

目前,该项目已在GitHub上斩获了3.8k星。

下面,我们就来看看CogVideoX生成的效果到底如何?

一个木制玩具船,在模拟海浪的蓝色地毯上航行,宛如在真的海水行驶一般。

一辆白色越野车沿着松树环绕的陡峭土路快速行驶,可以看到车尾的尘土飞扬。

其实这个场景对于AI来说,相对较难,只有正确理解了物理世界,才不会让生成的尘土在车前扬起。

下面这幅在战乱中,人物表情细节的刻画,细腻丰富。

针对更宏观的场景,CogVideoX也能将白雪皑皑的森林、无人穿梭的宁静小路,生动地描绘出来。

舌尖上的美食,还得看国产AI视频模型。烧烤架上烤制的鸡肉和青椒烤串,让人看了垂涎欲滴。

CogVideoX

见识到CogVideoX惊艳视频生成能力,你一定非常好奇这是怎么做到的?

4090单卡可跑,6秒直出电影级画质,智谱版Sora正式开源!

VAE

视频数据因包含空间和时间信息,其数据量和计算负担远超图像数据。

为应对此挑战,团队提出了基于3D变分自编码器(3D VAE)的视频压缩方法。

其中,3D VAE通过三维卷积同时压缩视频的空间和时间维度,实现了更高的压缩率和更好的重建质量。

4090单卡可跑,6秒直出电影级画质,智谱版Sora正式开源!

模型结构包括编码器、解码器和潜在空间正则化器,并通过四个阶段的下采样和上采样实现压缩。

时间因果卷积确保了信息的因果性,减少了通信开销。而上下文并行技术的采用,则可以适应大规模视频处理。

实验中,团队发现大分辨率编码易于泛化,而增加帧数则挑战较大。

因此,可将分两阶段训练模型:

- 首先在较低帧率和小批量上训练;

- 然后通过上下文并行在更高帧率上进行微调。

训练损失函数结合了L2损失、LPIPS感知损失和3D判别器的GAN损失。

专家Transformer

团队使用VAE的编码器将视频压缩至潜在空间,然后将潜在空间分割成块并展开成长的序列嵌入z_vision。

同时,使用T5将文本输入编码为文本嵌入z_text,然后将z_text和z_vision沿序列维度拼接。拼接后的嵌入被送入专家Transformer块堆栈中处理。

最后,反向拼接嵌入来恢复原始潜在空间形状,并使用VAE进行解码以重建视频。

4090单卡可跑,6秒直出电影级画质,智谱版Sora正式开源!

数据

视频生成模型训练需筛选高质量视频数据,以学习真实世界动态。但视频可能因人工编辑或拍摄问题而不准确。

为此,团队开发了负面标签来识别和排除低质量视频,如过度编辑、运动不连贯、质量低下、讲座式、文本主导和屏幕噪音视频。

通过video-llama训练的过滤器,团队标注并筛选了20,000个视频数据点。同时,计算光流和美学分数,动态调整阈值,确保生成视频的质量。

视频数据通常没有文本描述,需要转换为文本描述以供文本到视频模型训练。然而,现有的视频字幕数据集字幕较短,无法全面描述视频内容。

为了解决一问题,团队提出了一种从图像字幕生成视频字幕的管道,并微调端到端的视频字幕模型以获得更密集的字幕。

这种方法通过Panda70M模型生成简短字幕,使用CogView3模型生成密集图像字幕,然后使用GPT-4模型总结生成最终的短视频。

除此之外,团队还微调了一个基于CogVLM2-Video和Llama 3的CogVLM2-Caption模型,使用密集字幕数据进行训练,以加速视频字幕生成过程。

4090单卡可跑,6秒直出电影级画质,智谱版Sora正式开源!

性能

为了评估文本到视频生成的质量,团队使用了VBench中的多个指标,如人类动作、场景、动态程度等。并排除了不适用于评估需求的指标,例如颜色指标,因为它可能误导视频生成模型。

此外,团队还使用了两个额外的视频评估工具:Devil中的Dynamic Quality和Chrono-Magic中的GPT4o-MT Score,这些工具专注于视频的动态特性。

4090单卡可跑,6秒直出电影级画质,智谱版Sora正式开源!

值得一提的是,团队已经验证了scaling law在视频生成方面的有效性!

未来会在不断scale up数据规模和模型规模的同时,探究更具突破式创新的新型模型架构、更高效地压缩视频信息、更充分地融合文本和视频内容。

团队表示,目前的视频质量还有很广阔的提升空间,期待开发者们在提示词优化、视频长度、帧率、分辨率、场景微调以及围绕视频的各类功能开发上贡献开源力量。

此外,性能更强参数量更大的模型正在路上,敬请关注与期待。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-07 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

跨越时代的修复计划,如何重回香港电影黄金年代?
...修复,将模糊、磨损的港片重新翻新,解决了老旧影片的画质损伤,比如将在黑暗的场景中被掩盖的细节变得更清晰,褪色的场景变得鲜艳。这不仅仅是技术展示,更是对于香港电影历史的致敬,为
2023-08-23 10:40:00
OpenAI空降视频生成模型:一口气生成60s,风格画质尺寸灵活定制 | 最前线
...人走来走去。Sora生成视频(原视频为60s,文中截取20s,画质受gif大小限制有所压缩)。图源:OpenAI Sora也能生成动物和自然风光
2024-02-18 06:20:00
《卖身契》修复记:AI重现“打工人”喜剧魅力,留住老电影的黄
...调整。普通的2K修复依靠人工大概用两到三周完成,而4K画质更好、观感更清晰细腻,修复时间起码在两个月以上,甚至半年之久。你很难想象,自20世纪初,这样的老电影已经积攒了近3万
2024-04-22 20:30:00
国产AI可以拍微电影了!4K、60帧高清画质,自带音效
...但现在,音效是可以直接自带了!而且还是4K、60帧高清画质的那种。那么AI视频生成现在能到什么水平?我们直接拿这个国产AI做了个微电影,请看VCR:如何?是不是已经有电影的那
2024-11-09 09:54:00
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...ideo(HY-Video)是一款突破性的视频生成模型,提供超写实画质质感,能够在真实与虚拟之间自由切换。它打破了小幅度动态图的限制
2024-12-04 09:48:00
AI修复  扮靓影像(AI创作新风潮)
...?“整个修复过程基本是自动化的,主要包括智能分析、画质修复、画质增强和智能编码四个模块。”夏珍逐一介绍了其中的原理,在智能分析环节,对噪声、划痕、亮度、饱和度等维度进行数据分
2023-09-18 04:47:00
腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放
...过腾讯云接入。腾讯混元视频生成主打四大特点:超写实画质,模型生成的视频内容具备高清质感、真实感,可用于工业级商业场景例如广告宣传、创意视频生成等商业应用。 高语义一致,用户
2024-12-04 09:50:00
全网刷频的Sora,有多“可怕”
...司,在这种麻痹里,都陷入了同质化竞争:过多关注更高画质、更高成功率、更低成本,而非更大时长以及世界模型。Pika、Runway、Meta,大体都是如此,在时长不超过 4s 的
2024-02-19 09:22:00
6个月估值达2亿美元,文生视频Pika超强更新,斯坦福华人博士出品|最前线
...来看,生成的视频不管是在时长、逻辑连贯性、流畅性、画质和风格准确性上都很难达到预期。Pika1.0几乎都解决了这些问题,让很多人眼前一亮。有推特网友评论称,Pika 1.0会
2023-11-30 20:54:00
更多关于科技的资讯:
赵光辉 沈佳奇:“投物”与“投人”并重
一方面,将资金资源投向人力资本质量的提升,增强“投资于人”的投资比重,确保投资既要见“物”更要见“人”。要以提高人的综合素质为重点
2025-09-05 22:29:00
AI竞技场,河南加速度!
大河网讯 在2025世界人形机器人运动会上,“行者二号”在1500米项目中勇夺小组第一;内乡县牧原肉食产业综合体通过24小时巡检机器人与AI算法
2025-09-05 19:46:00
河北新闻网讯(王杨、曹莹莹)河钢集团张宣科技聚焦“近零碳排”冶炼全流程,通过持续优化生产工艺,充分释放设备效能。近日,该公司成功开发的高品质汽车用材料
2025-09-05 18:00:00
Baseus倍思强强联合Bose发布三大年度旗舰新品,高端专业音频迈入全民化时代
2025 年 9 月 5 日 14:00,全球新生活移动数码品牌 Baseus倍思举办线上新品发布会, 正式发布其年度旗舰音频新品——倍思 Inspire系列
2025-09-05 18:31:00
引领健康储鲜,澳柯玛风冷变频冷柜斩获“云鼎奖”
鲁网9月5日讯近日,奥维云网2025数字生态大会在杭州闭幕。作为家电行业极具影响力的年度盛会,现场汇聚了众多家电领军品牌
2025-09-05 13:38:00
周黑鸭携四大产品线矩阵破局全场景消费,构建卤味行业新范式
齐鲁晚报·齐鲁壹点 记者 张召旭在近期举办的行业展会上,周黑鸭凭借前瞻性战略布局引发行业广泛关注——品牌首次系统推出针对多元消费需求与渠道特性开发的四大产品线
2025-09-05 11:00:00
当“保温杯里泡枸杞”从段子变成日常,当“中药房下午茶”取代美式咖啡成为年轻人新宠,老字号品牌们逐渐发现:年轻人不是在买一杯饮料
2025-09-05 11:02:00
本报记者 魏 静 □ 忽 艳在国内鼓励创新、倡导在世界舞台展示中国实力产品与个人实力的大环境下,越来越多中国品牌凭借创新精神与卓越品质
2025-09-05 11:02:00
近日,阳光人寿秦皇岛中支在益寿园开展“银发课堂”特色活动,为老年群体送上内容丰富的金融知识。活动现场,工作人员通过生动的案例
2025-09-05 09:36:00
36氪首发|掘金“微醺”社交经济,精酿品牌「TAGSIU」获近千万 Pre-A 轮融资
作者 | 李小霞36 氪获悉,精酿品牌「TAGSIU 醍宿酿造」(下称“TAGSIU”)已完成近千万 Pre-A轮融资
2025-09-04 22:09:00
从形态突破到生态跃迁:华为三折叠的「鸿蒙时刻」
三折叠这个赛道,或许只有华为能够超越华为。华为Mate XT 非凡大师发布一年之后,三折叠这片“无人区”,仍然只有华为的身影
2025-09-05 00:13:00
大众网记者 张田夏荫 实习记者 张智尧 报道海信集团总裁、海信视像科技股份有限公司董事长于芝涛正式以大赛形象大使与推介大使的身份
2025-09-04 10:04:00
第26届GOPS全球运维大会落幕,AI Infra赋能运维转型
2025年6月28日,为期两天的第26届GOPS全球运维大会暨研运数智化技术峰会在北京市圆满落幕。作为国内首个运维行业盛会
2025-09-04 11:33:00
三联家电“伙拼9.12”权益全解析!三重补贴省心省钱嗨购金秋
鲁网9月4日讯金秋家装季撞上三联家电第十一季“伙拼9.12”大型内购福利会!这场被万千家庭期待的消费盛宴即将引爆全城!多重补贴
2025-09-04 11:33:00
灵动集团旗下欢米粒心理:新学期,为青少年心理护航——以专业体系构建成长防护网
在青少年心理健康服务需求进入 “刚性增长期” 的当下,资质与专业双轮驱动成为行业发展的核心支撑。灵动生活集团作为《互联网心理服务・心理测评服务通用规范》国家标准制定委员单位
2025-09-04 11:55:00