• 我的订阅
  • 科技

智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年

类别:科技 发布时间:2024-07-27 09:30:00 来源:甲子光年
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年

视频大模型进入百模大战。

今年是“视频生成”大模型爆发元年。在过去两个月,我们看到了快手可灵、商汤Vimi、Luma AI、爱诗科技Pixverse、Runway Gen-3等等视频大模型的你追我赶。

但上半年的视频生成大模型公司,往往只聚焦在视频生成这一个功能。

而下半年,大语言模型公司将逐渐跟随OpenAI的脚步,纷纷入场视频大模型,把语言模型与视频模型做大一统。

在备受瞩目的“大模型六小强”中,动作最快的是智谱AI。

今天上午,这家清华系大模型独角兽上线视频生成大模型产品“清影”,直接面向所有用户开放,支持文生视频与图生视频。

在智谱清言PC或App里输入一段文字或图片后(即Prompt),用户可以选择自己想要生成的风格,包括卡通3D、黑白、油画、电影感等,配上清影自带的音乐,就生成了充满AI想象力的视频片段;此外,“AI动态照片小程序”支持图生视频。

对于现在视频大模型领域的格局,张鹏认为大概也会像大语言模型一般,进入百家争鸣的格局。

在商业化策略上,清影目前的付费方案是:首发测试期间,所有用户均可免费使用;付费5元,解锁一天(24小时)的高速通道权益,付费199元,解锁一年的付费高速通道权益。智谱AI CEO张鹏表示:“现在的商业化仍处于非常早期的阶段,而且成本实际上也非常高,后面会根据市场的反馈做逐步迭代。”

清影API也同步上线智谱大模型开放平台,企业和开发者通过调用API的方式,体验和使用文生视频以及图生视频的模型能力。

清影的研发得到北京市的大力支持。海淀区是智谱AI总部所在地,为智谱AI开展大模型研发提供了产业投资、算力补贴、应用场景示范、人才等全方位支持;清影的训练依托亦庄高性能算力集群,在北京亦庄算力集群诞生,未来也将应用于北京亦庄广阔的高精尖产业集群,形成大模型赋能实体经济的新业态。

智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年

在生态合作上,bilibili作为合作伙伴也参与了清影的技术研发过程,并致力于探索未来可能的应用场景。同时,合作伙伴华策影视也参与了模型共建。

1.30秒将任意文字生成视频

清影的具体效果如何?先看一下官方发布的几支视频案例(都配上了音乐)。

文生视频:

提示词:低角度向上推进,缓缓抬头,冰山上突然出现一条恶龙,然后恶龙发现你,冲向你。好莱坞电影风

提示词:在霓虹灯闪烁的赛博朋克风格城市夜景中,手持跟拍的镜头缓缓推近,一个机械风格的小猴子正在用高科技工具维修,周围是闪烁的电子设备和未来主义的装修材料。赛博朋克风格,气氛神秘,4K高清。

提示词:广告拍摄视角,黄色背景,白色桌子上,画面中一个土豆被扔下来变成一份薯条

图生视频

提示词:古典美女

提示词:一条龙的口中喷射出火焰,烧毁了一个小村庄

提示词:水豚慵懒地用吸管喝可乐,扭头朝向相机

清影的视频生成时长为6s左右,输入提示词之后需要等待时间是30s左右。张鹏表示,这个生成速度在业内已经算非常快了。

张鹏认为,多模态模型的探索还处于非常初级的阶段。从生成视频的效果看,对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等,都有非常大的提升空间。从模型本身角度看,需要更具突破式创新的新模型架构,它应该更高效压缩视频信息,更充分融合文本和视频内容,贴合用户指令的同时,让生成内容真实感更高。

2.自研DiT架构

清影底座的视频生成模型是CogVideoX,它将文本、时间、空间三个维度融合起来,参考了Sora的算法设计。CogVideoX也是一个DiT架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了6倍。

智谱主要分享了CogVideoX 的三个技术特点:内容连贯性、可控性、模型结构。

首先,为了解决内容连贯性的问题,智谱自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至2%大小,以此减少视频扩散生成模型的训练成本及训练难度。

模型结构方面,智谱采用因果三维卷积(Causal 3D convolution)为主要模型组件,移除了自编码器中常用的注意力模块,使得模型具备不同分辨率迁移使用的能力。

同时,在时间维度上因果卷积的形式也使得模型具备视频编解码具备从前向后的序列独立性,便于通过微调的方式向更高帧率与更长时间泛化。

从工程部署的角度,智谱基于时间维度上的序列并行(Temporal Sequential Parallel)对变分自编码器进行微调及部署,使其具备支持在更小的显存占用下支持极高帧数视频的编解码的能力。

第二点是可控性。现在的视频数据大多缺乏对应的描述性文本或者描述质量低下,为此智谱自研了一个端到端的视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述,这样可以增强模型的文本理解和指令遵循能力,使得生成的视频更符合用户的输入,能够理解超长复杂prompt指令。

这也是Sora用到的方式。OpenAI用DALL·E 3 的“重新字幕技术”(re-captioning technique)训练了一个高度描述性的字幕生成器模型,然后使用它为训练数据集中的视频生成文本字幕。此外,OpenAI 还利用GPT将简短的用户提示转换为较长的详细字幕,然后发送到视频模型。

最后是智谱自研的一个将文本、时间、空间三个维度全部融合起来的transformer架构,它摒弃了传统的cross attention模块,而是在输入阶段就将文本embedding和视频embedding concat起来,以便更充分地进行两种模态的交互。

然而两种模态的特征空间有很大差异,智谱通过expert adaptive layernorm对文本和视频两个模态分别进行处理来弥补这一差异,这样可以更有效地利用扩散模型中的时间步信息,使得模型能够高效利用参数来更好地将视觉信息与语义信息对齐。

其中注意力模块采用了3D全注意力机制,先前的研究通常使用分离的空间和时间注意力或者分块时空注意力,它们需要大量隐式传递视觉信息,大大增加了建模难度,同时它们无法与现有的高效训练框架适配。

位置编码模块设计了3D RoPE,更有利于在时间维度上捕捉帧间关系,建立起视频中的长程依赖。

3.Scaling Law仍在发挥作用

智谱在AIl in大模型路线之初,就开始多模态领域相关布局。从文本,到图片再到视频,大模型对世界的理解逐渐复杂、逐渐多维。大模型通过对各种模态的学习,涌现出理解、知识和处理不同任务的能力。

智谱对于多模态大模型的研究可追溯到2021年。从2021年开始,智谱先后研发了CogView(NeurIPS’21)、 CogView2(NeurIPS’22)、CogVideo(ICLR’23)、Relay Diffusion(ICLR’24)、CogView3 (2024)。

基于CogView,团队研发基于大模型的文本到视频生成模型CogVideo,采用了多帧率分层训练策略生成高质量的视频片段,提出一种基于递归插值的方法,逐步生成与每个子描述相对应的视频片段,并将这些视频片段逐层插值得到最终的视频片段。这个工作引起脸书、谷歌、微软的广泛关注,在后面脸书的Make-A-Video、谷歌的Phenaki和MAGVIT、微软女娲DragNUWA、英伟达Video LDMs等视频生成模型工作中都有引用。

2024年5月,GLM大模型技术团队在ICLR 2024主旨演讲环节全面阐述了GLM大模型面向AGI三大技术趋势,原生多模态大模型在其中扮演重要角色:GLM大模型团队认为,文本是构建大模型的关键基础,下一步则应该把文本、图像、视频、音频等多种模态混合在一起训练,构建真正原生的多模态模型。

智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年

智谱全方位布局大模型系列产品,多模态模型始终扮演着重要角色。智谱已经验证了Scaling Law在视频生成方面的有效性,未来会在不断scale up数据规模和模型规模的同时,探究更具突破式创新的新型模型架构,更高效地压缩视频信息,更充分地融合文本和视频内容。

张鹏认为,未来大模型的技术突破方向之一就是原生多模态大模型,Scaling Law将继续在算法与数据两方面发挥作用。

“我们还没有看到技术曲线放缓的迹象。”张鹏表示。

(封面图及文中配图来源:智谱)

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-27 11:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

智谱AI生成视频模型清影(Ying)正式上线,有“点子”就能进行创作
...总部所在地,提供了全方位的支持。清影(Ying)的训练依托亦庄高性能算力集群,未来将应用于北京亦庄的高精尖产业集群,推动大模型赋能实体经济的新业态发展。合作伙伴bilibi和
2024-07-26 14:00:00
云知声荣登甲子光年榜单,彰显AI大模型商业潜力
...2月10日-12月11日,以“万千流变,一如既往”为主题的2024甲子引力年终盛典在北京召开。活动现场发布了【甲子20
2024-12-13 16:22:00
...产业年会上,中国工程院院士邬贺铨作了题为《互联网半甲子,大模型新风口》的主旨报告。邬贺铨在报告中指出,今年是中国全功能接入互联网的第30个年头,正是“半甲子”的重要节点。在波
2024-01-11 06:44:00
Pika爆火,但AI视频还没到「GPT时刻」;首个GPT-4驱动的人形机器人;微软小模型击败大模型丨AI新零售早报
...)《当企服遇上大模型,AI如何驱动企业数字化转型?|甲子光年》AIGC的影响: 大模型的出现为企业数字化转型带来了新动力
2023-12-14 09:34:00
OpenAI没有放弃的机器人梦想
图片来源@视觉中国文|甲子光年,作者|王博、艾伦2021年夏天,OpenAI悄然解散了它的机器人团队,理由是缺乏训练机器人使用人工智能进行移动和推理所需的数据,研发受到了阻碍。当
2024-03-18 10:00:00
李彦宏:AI原生应用比大模型数量更重要
...堵指数暴增2.5倍。从二环堵到六环,一片红,唯一绿的是亦庄。亦庄车流量同样明显增加,但因为部署了AI全域信控方案,300多个智能路口,都可以根据车流量自动调节红绿灯,亦庄成为
2023-06-26 19:20:00
不破不立:重启通用人工智能新时代|甲子引力X
...期,重启人工智能新时代。8月22日,中国科技产业智库「甲子光年」在北京举办了「2023甲子引力X科技产业投资大会」,数十位行业大咖聚焦产业前沿话题,以人工智能等硬科技投资为起
2023-08-31 18:01:00
智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车
...智谱AI对标OpenAI全模型产品线在算力方面,清影是在北京亦庄AI公共算力平台上训练而来的。数据层面,智谱AI与Bilibili、华策影视等进行了合作。张鹏谈道,虽然视频生
2024-07-27 09:18:00
AIGC产业图谱发布 影谱科技打开AIGC垂直领域应用新思路
...用及商业价值几何,更需要行业去冷静地剖析。基于此,甲子光年智库展开了深度的AIGC应用与实践研究,输出《AIGC应用与实践研究报告》。该报告从“概念重生、行业颠覆、产业变革、
2023-04-24 19:00:00
更多关于科技的资讯:
通讯员 王靓婧随着AI技术与柜台业务深度融合,建行的AI助手正以“智能搭档”的角色,为柜员减负、提效、赋能,重新定义线下金融服务的专业与温度
2025-10-18 19:23:00
探访南昌红谷滩商业新活力:首店经济亮眼,TOD模式引潮
大皖新闻讯 2025世界VR产业大会召开在即,南昌市红谷滩区委宣传部以“活力红谷滩 智启新未来”为主题组织媒体行活动。媒体团深入辖区标杆商业体
2025-10-18 19:18:00
Kiwa为“腾越电子”颁发MID认证证书,叩响欧盟市场新篇章
国际权威检测、检验及认证(TIC)服务商Kiwa,于不久前正式向连云港腾越电子科技有限公司(全文简称为“腾越电子”)颁发欧盟CE认证MID证书
2025-10-18 18:44:00
南报网讯(通讯员胡晓靓记者夏思宇)走进南京绿叶制药有限公司制冷站,冷水机组、冷冻水泵、冷却水泵、冷却塔等设备稳定运转,维持药品生产GMP车间的恒温恒湿环境
2025-10-17 08:13:00
聚焦2025中国国际数字经济博览会•现场|打卡数字展馆 体验未来生活
10月16日,2025中国国际数字经济博览会展区工作人员在调试机器人。 河北日报记者 史晟全摄借助VR设备沉浸在古城往事中
2025-10-17 08:23:00
我从事科技研发工作,出生在一个三代从商的家庭。我的祖父是一名民营企业家,在枣强县这片土地上开启了玻璃钢产业创业之路;我的父亲骑着一辆摩托车闯荡天津
2025-10-17 09:11:00
博物馆“抢票”成第一关,中轴线打卡、汉服妆造让历史游玩出沉浸新花样……音乐节、演唱会与国际顶级体育赛事一票难求,“为一场演出赴一座城”成为常态
2025-10-17 09:15:00
新闻纵深·县域特色产业新力量|借力京津,机器人产业双链融合
阅读提示唐山市高新技术产业开发区在机器人新赛道上频频发力,已形成以工业机器人为引领、特种机器人为亮点、服务机器人为特色
2025-10-17 09:19:00
旭客民宿出租车广告上线,金华房东的“生意牌面”正在刷新
旭客民宿出租车广告上线,金华房东的“生意牌面”正在刷新最近在金华街头,不少人注意到一组频繁穿梭的出租车广告:“住旭客民宿
2025-10-17 09:25:00
AI EMPOWERS ALL丨神州泰岳亮相中国移动全球合作伙伴大会
碳硅共生,合创AI+时代——第13届中国移动全球合作伙伴大会于今日在广州保利世贸博览馆盛大启幕。神州泰岳作为中国移动长期重要合作伙伴
2025-10-17 09:25:00
内容觉醒·生态共创 | 2025瑞派短视频大赛职人组培训圆满落幕
金秋时节,硕果盈枝。由瑞派股份市场营销中心倾力打造的“2025年度瑞派短视频大赛职人专属赛道培训”在热烈氛围中圆满收官
2025-10-17 09:55:00
市场销售疲软,高档卷烟销售增速放缓,中低档卷烟却因消费需求旺盛出现供应紧张的问题,这是当前卷烟销售工作面临的瓶颈。受计划经济体制影响
2025-10-17 10:02:00
浪潮科技三款平台产品或升级认可
近日,山东省工业和信息化厅公布了拟入选第九批山东省首版次高端软件产品公示名单。浪潮科技研发的“焱宇行业大模型服务平台 V1
2025-10-17 10:03:00
旅服会媒体开放日:全产业链盛会引关注
16日,由中国旅行社协会、中国旅游集团主办的2025首届国际旅行服务大会暨交易展(以下简称“旅服会”)迎来媒体开放日。来自30余家主流媒体
2025-10-17 10:04:00
把听劝搬到线下!海尔智家双11邀500+达人发起智慧科技众测
今年双11,海尔智家把“听劝”从线上搬到了线下,在黄岛东方影都打造了一场规模空前的“智慧科技众测”现场,让“用户声音”与“产品研发”真正零距离对话
2025-10-17 10:07:00