• 我的订阅
  • 科技

智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年

类别:科技 发布时间:2024-07-27 09:30:00 来源:甲子光年
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年

视频大模型进入百模大战。

今年是“视频生成”大模型爆发元年。在过去两个月,我们看到了快手可灵、商汤Vimi、Luma AI、爱诗科技Pixverse、Runway Gen-3等等视频大模型的你追我赶。

但上半年的视频生成大模型公司,往往只聚焦在视频生成这一个功能。

而下半年,大语言模型公司将逐渐跟随OpenAI的脚步,纷纷入场视频大模型,把语言模型与视频模型做大一统。

在备受瞩目的“大模型六小强”中,动作最快的是智谱AI。

今天上午,这家清华系大模型独角兽上线视频生成大模型产品“清影”,直接面向所有用户开放,支持文生视频与图生视频。

在智谱清言PC或App里输入一段文字或图片后(即Prompt),用户可以选择自己想要生成的风格,包括卡通3D、黑白、油画、电影感等,配上清影自带的音乐,就生成了充满AI想象力的视频片段;此外,“AI动态照片小程序”支持图生视频。

对于现在视频大模型领域的格局,张鹏认为大概也会像大语言模型一般,进入百家争鸣的格局。

在商业化策略上,清影目前的付费方案是:首发测试期间,所有用户均可免费使用;付费5元,解锁一天(24小时)的高速通道权益,付费199元,解锁一年的付费高速通道权益。智谱AI CEO张鹏表示:“现在的商业化仍处于非常早期的阶段,而且成本实际上也非常高,后面会根据市场的反馈做逐步迭代。”

清影API也同步上线智谱大模型开放平台,企业和开发者通过调用API的方式,体验和使用文生视频以及图生视频的模型能力。

清影的研发得到北京市的大力支持。海淀区是智谱AI总部所在地,为智谱AI开展大模型研发提供了产业投资、算力补贴、应用场景示范、人才等全方位支持;清影的训练依托亦庄高性能算力集群,在北京亦庄算力集群诞生,未来也将应用于北京亦庄广阔的高精尖产业集群,形成大模型赋能实体经济的新业态。

智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年

在生态合作上,bilibili作为合作伙伴也参与了清影的技术研发过程,并致力于探索未来可能的应用场景。同时,合作伙伴华策影视也参与了模型共建。

1.30秒将任意文字生成视频

清影的具体效果如何?先看一下官方发布的几支视频案例(都配上了音乐)。

文生视频:

提示词:低角度向上推进,缓缓抬头,冰山上突然出现一条恶龙,然后恶龙发现你,冲向你。好莱坞电影风

提示词:在霓虹灯闪烁的赛博朋克风格城市夜景中,手持跟拍的镜头缓缓推近,一个机械风格的小猴子正在用高科技工具维修,周围是闪烁的电子设备和未来主义的装修材料。赛博朋克风格,气氛神秘,4K高清。

提示词:广告拍摄视角,黄色背景,白色桌子上,画面中一个土豆被扔下来变成一份薯条

图生视频

提示词:古典美女

提示词:一条龙的口中喷射出火焰,烧毁了一个小村庄

提示词:水豚慵懒地用吸管喝可乐,扭头朝向相机

清影的视频生成时长为6s左右,输入提示词之后需要等待时间是30s左右。张鹏表示,这个生成速度在业内已经算非常快了。

张鹏认为,多模态模型的探索还处于非常初级的阶段。从生成视频的效果看,对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等,都有非常大的提升空间。从模型本身角度看,需要更具突破式创新的新模型架构,它应该更高效压缩视频信息,更充分融合文本和视频内容,贴合用户指令的同时,让生成内容真实感更高。

2.自研DiT架构

清影底座的视频生成模型是CogVideoX,它将文本、时间、空间三个维度融合起来,参考了Sora的算法设计。CogVideoX也是一个DiT架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了6倍。

智谱主要分享了CogVideoX 的三个技术特点:内容连贯性、可控性、模型结构。

首先,为了解决内容连贯性的问题,智谱自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至2%大小,以此减少视频扩散生成模型的训练成本及训练难度。

模型结构方面,智谱采用因果三维卷积(Causal 3D convolution)为主要模型组件,移除了自编码器中常用的注意力模块,使得模型具备不同分辨率迁移使用的能力。

同时,在时间维度上因果卷积的形式也使得模型具备视频编解码具备从前向后的序列独立性,便于通过微调的方式向更高帧率与更长时间泛化。

从工程部署的角度,智谱基于时间维度上的序列并行(Temporal Sequential Parallel)对变分自编码器进行微调及部署,使其具备支持在更小的显存占用下支持极高帧数视频的编解码的能力。

第二点是可控性。现在的视频数据大多缺乏对应的描述性文本或者描述质量低下,为此智谱自研了一个端到端的视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述,这样可以增强模型的文本理解和指令遵循能力,使得生成的视频更符合用户的输入,能够理解超长复杂prompt指令。

这也是Sora用到的方式。OpenAI用DALL·E 3 的“重新字幕技术”(re-captioning technique)训练了一个高度描述性的字幕生成器模型,然后使用它为训练数据集中的视频生成文本字幕。此外,OpenAI 还利用GPT将简短的用户提示转换为较长的详细字幕,然后发送到视频模型。

最后是智谱自研的一个将文本、时间、空间三个维度全部融合起来的transformer架构,它摒弃了传统的cross attention模块,而是在输入阶段就将文本embedding和视频embedding concat起来,以便更充分地进行两种模态的交互。

然而两种模态的特征空间有很大差异,智谱通过expert adaptive layernorm对文本和视频两个模态分别进行处理来弥补这一差异,这样可以更有效地利用扩散模型中的时间步信息,使得模型能够高效利用参数来更好地将视觉信息与语义信息对齐。

其中注意力模块采用了3D全注意力机制,先前的研究通常使用分离的空间和时间注意力或者分块时空注意力,它们需要大量隐式传递视觉信息,大大增加了建模难度,同时它们无法与现有的高效训练框架适配。

位置编码模块设计了3D RoPE,更有利于在时间维度上捕捉帧间关系,建立起视频中的长程依赖。

3.Scaling Law仍在发挥作用

智谱在AIl in大模型路线之初,就开始多模态领域相关布局。从文本,到图片再到视频,大模型对世界的理解逐渐复杂、逐渐多维。大模型通过对各种模态的学习,涌现出理解、知识和处理不同任务的能力。

智谱对于多模态大模型的研究可追溯到2021年。从2021年开始,智谱先后研发了CogView(NeurIPS’21)、 CogView2(NeurIPS’22)、CogVideo(ICLR’23)、Relay Diffusion(ICLR’24)、CogView3 (2024)。

基于CogView,团队研发基于大模型的文本到视频生成模型CogVideo,采用了多帧率分层训练策略生成高质量的视频片段,提出一种基于递归插值的方法,逐步生成与每个子描述相对应的视频片段,并将这些视频片段逐层插值得到最终的视频片段。这个工作引起脸书、谷歌、微软的广泛关注,在后面脸书的Make-A-Video、谷歌的Phenaki和MAGVIT、微软女娲DragNUWA、英伟达Video LDMs等视频生成模型工作中都有引用。

2024年5月,GLM大模型技术团队在ICLR 2024主旨演讲环节全面阐述了GLM大模型面向AGI三大技术趋势,原生多模态大模型在其中扮演重要角色:GLM大模型团队认为,文本是构建大模型的关键基础,下一步则应该把文本、图像、视频、音频等多种模态混合在一起训练,构建真正原生的多模态模型。

智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年

智谱全方位布局大模型系列产品,多模态模型始终扮演着重要角色。智谱已经验证了Scaling Law在视频生成方面的有效性,未来会在不断scale up数据规模和模型规模的同时,探究更具突破式创新的新型模型架构,更高效地压缩视频信息,更充分地融合文本和视频内容。

张鹏认为,未来大模型的技术突破方向之一就是原生多模态大模型,Scaling Law将继续在算法与数据两方面发挥作用。

“我们还没有看到技术曲线放缓的迹象。”张鹏表示。

(封面图及文中配图来源:智谱)

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-27 11:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

智谱AI生成视频模型清影(Ying)正式上线,有“点子”就能进行创作
...总部所在地,提供了全方位的支持。清影(Ying)的训练依托亦庄高性能算力集群,未来将应用于北京亦庄的高精尖产业集群,推动大模型赋能实体经济的新业态发展。合作伙伴bilibi和
2024-07-26 14:00:00
云知声荣登甲子光年榜单,彰显AI大模型商业潜力
...2月10日-12月11日,以“万千流变,一如既往”为主题的2024甲子引力年终盛典在北京召开。活动现场发布了【甲子20
2024-12-13 16:22:00
...产业年会上,中国工程院院士邬贺铨作了题为《互联网半甲子,大模型新风口》的主旨报告。邬贺铨在报告中指出,今年是中国全功能接入互联网的第30个年头,正是“半甲子”的重要节点。在波
2024-01-11 06:44:00
Pika爆火,但AI视频还没到「GPT时刻」;首个GPT-4驱动的人形机器人;微软小模型击败大模型丨AI新零售早报
...)《当企服遇上大模型,AI如何驱动企业数字化转型?|甲子光年》AIGC的影响: 大模型的出现为企业数字化转型带来了新动力
2023-12-14 09:34:00
OpenAI没有放弃的机器人梦想
图片来源@视觉中国文|甲子光年,作者|王博、艾伦2021年夏天,OpenAI悄然解散了它的机器人团队,理由是缺乏训练机器人使用人工智能进行移动和推理所需的数据,研发受到了阻碍。当
2024-03-18 10:00:00
李彦宏:AI原生应用比大模型数量更重要
...堵指数暴增2.5倍。从二环堵到六环,一片红,唯一绿的是亦庄。亦庄车流量同样明显增加,但因为部署了AI全域信控方案,300多个智能路口,都可以根据车流量自动调节红绿灯,亦庄成为
2023-06-26 19:20:00
不破不立:重启通用人工智能新时代|甲子引力X
...期,重启人工智能新时代。8月22日,中国科技产业智库「甲子光年」在北京举办了「2023甲子引力X科技产业投资大会」,数十位行业大咖聚焦产业前沿话题,以人工智能等硬科技投资为起
2023-08-31 18:01:00
智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车
...智谱AI对标OpenAI全模型产品线在算力方面,清影是在北京亦庄AI公共算力平台上训练而来的。数据层面,智谱AI与Bilibili、华策影视等进行了合作。张鹏谈道,虽然视频生
2024-07-27 09:18:00
AIGC产业图谱发布 影谱科技打开AIGC垂直领域应用新思路
...用及商业价值几何,更需要行业去冷静地剖析。基于此,甲子光年智库展开了深度的AIGC应用与实践研究,输出《AIGC应用与实践研究报告》。该报告从“概念重生、行业颠覆、产业变革、
2023-04-24 19:00:00
更多关于科技的资讯:
江西热敏灸机器人获批上市 赋能百亿产业链提速
本报讯(全媒体记者李芳)10月9日,省药监局正式批准热敏灸机器人第二类医疗器械上市。这标志着江西热敏灸产业进入数智化时代
2025-10-17 07:10:00
厦门网讯 (厦门日报记者 薛尧)无人机、运动相机迎来降价潮!近日有市民发现相关热门产品价格跳水,记者走访了解到,我市多家大疆授权体验店中
2025-10-16 08:38:00
助力视弱群体畅行 公交视弱辅助系统“喊”您上车
视弱人士庄先生在公交视弱辅助系统的帮助下乘车。厦门网讯(文/图 厦门日报记者 林钦圣 通讯员 江安娜) “我们先找到并打开公交App
2025-10-16 08:38:00
10月15日晚,福州金融街商务区“亮灯”,迎接2025世界航海装备大会。
2025-10-16 08:59:00
近日,中石化石油工程设计有限公司自主研发的“管道环焊缝射线检测缺陷智能辅助评判系统”,顺利完成准确率测试。本次测试中,该系统总计检查了210张油气长输管道环焊缝射线检测底片
2025-10-16 09:03:00
当“遇到问题先到社交媒体上搜索”成为一代青少年的本能反应,当班级群、兴趣圈与直播平台深度嵌入他们的日常生活,社交网络正构成这代“数字原住民”成长的基本环境
2025-10-16 09:16:00
在人工智能技术飞速发展的今天,大模型以其强大的信息处理与泛化能力,正深刻改变医学领域的科研与临床实践。与此同时,以聚类分析
2025-10-16 09:57:00
人去世了朋友圈会消失吗?微信:对长时间不使用账号已不再回收
10月15日,“微信派”微信公众号发布最新一期播客,聊到了“真的很多人不发朋友圈了吗?”“人去世后,朋友圈会被回收吗?”等话题
2025-10-16 10:13:00
日日佳携手企知道,共同推动智能显示技术科技创新
近日,深圳日日佳显示技术有限公司(以下简称“日日佳”或“公司”)正式签约入驻企知道科创空间。作为专注于TFT-LCD模组制造的细分领域的国家高新技术企业和深圳市专精特新中小企业
2025-10-16 10:18:00
汽车测评 全球协同 | 解码C-NCAP——护航公众出行安全
当汽车从单纯的“交通工具”升级为承载多元需求的“出行载体”,是什么力量在守护这场变革的安全底线?2025世界NCAP大会即将在中国上海启幕
2025-10-16 10:50:00
花田玑密入选“2025山东省优秀兴农电商企业案例”
2025年10月16日,由山东省商务厅主办的“数商兴农庆丰收暨九九网购节”电商促消费活动在青岛莱西市人民广场隆重启动。花田玑密品牌创始人
2025-10-16 10:53:00
香港金管局公布生成式AI沙盒名单,蚂蚁数科入选技术合作伙伴
10月15日,香港金融管理局(HKMA)与香港数码港管理有限公司联合公布第二期生成式AI沙盒参与者名单。蚂蚁银行、中银香港
2025-10-16 11:24:00
卢伟冰官宣REDMI K90系列明天见!不排斥和小米直接竞争
10月16日,小米集团合伙人、总裁卢伟冰微博正式官宣,REDMI K90系列明天见。他发文透露,本次发布会是小米手机业务在旗舰新品发布季的第二篇章
2025-10-16 12:00:00
从2019年首届举办至今,VR/AR产业博览会已成为虚拟现实行业“不可或缺的重要盛事”,不仅是展示最新产品与技术的窗口
2025-10-16 12:07:00
在全球人工智能技术迅猛发展并向各领域深度渗透的背景下,高校思想政治教育作为培养时代新人的关键环节,正面临数字化转型的机遇与挑战
2025-10-16 13:40:00