• 我的订阅
  • 科技

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

类别:科技 发布时间:2024-07-27 09:18:00 来源:智东西

智东西7月26日报道,今天一早,大模型独角兽智谱AI正式发布视频生成工具清影,可支持文生、图生6秒时长的视频,即日起在PC端、手机App端以及小程序端面向所有C端用户免费开放。

先来看看效果,以下是几个官方放出的文生和图生视频案例,覆盖人像、动物、3D卡通等场景:

从Demo来看,清影的生成效果虽然相比Sora等还有一定进步空间,但就整体而言流畅度、运动幅度等都很不错,无论是人物表情、动作,还是光影变化、镜头移动,都没有明显的卡顿和突兀感,对运动幅度的把控也恰到好处,不会看起来像PPT也不会过于夸张。

此外,虽然生成是完全免费的,但生成视频需要排队,智谱AI提供了两种加速排队的订阅方式,包括5元加速1天、199元加速1年。

清影API今天也同步上线,企业和开发者都可以通过调用API的方式,体验并使用清影的文生、图生视频能力,据称这也是国内上线的首个视频生成API。

据智谱AI CEO张鹏解读,清影基于自研的底座视频生成模型CogVideoX打造,能将文本、时间、空间三个维度融合起来。该模型参考Sora算法设计,采用了DiT架构,相比前代CogVideo模型推理速度提升了6倍。

智谱AI成立于2019年6月,起源于清华大学计算机系知识工程实验室,专注于开发新一代认知智能大模型。一直以来,智谱AI以对标OpenAI全模型产品线为线索,陆续研发了包括文本、代码、图像、Agent等方面的自研模型和产品矩阵。此次发布基于CogVideoX的清影,使其大模型矩阵又扩充类一个模态。

值得一提的是,这也是国内做语言大模型起家的大模型独角兽,首次推出视频生成产品——之前这个赛道更多的是字节、快手等短视频大厂,以及爱诗科技、生数科技等专注于视频生成模型的创企。

清影具体有哪些特点?其底层模型在哪些方面做了创新?具体效果如何?智东西第一时间上手实测了一番,有以下几点发现:

1、简短的提示词效果更好,复杂指令下会丢失细节。

2、人手仍是重灾区,容易出现画面闪烁的现象。

3、生成很快,但加上排队等待时间仍达到1-2分钟。

4、相比图生视频,文生视频的稳定性更高。

当然,有限次的体验无法做到全面,也欢迎感兴趣的读者朋友,在评论区分享体验感受和新发现~

一、半分钟生成6秒视频,复杂指令、内容连贯

清影主要有4个特点:生成速度快、复杂指令遵从能力强、内容连贯性高以及画面调度幅度大。

首先在生成速度上,清影AI据称可以在30秒内生成一段6秒、帧率16fps、分辨率1440*960的视频。

其次,在复杂指令遵从能力上,智谱AI自研了视频理解模型,用于为视频数据生成高度吻合的文本描述,进而构建了海量高质量视频文本对,提升了指令遵循度。

清影的第三个特点是内容连贯性,能够比较好地还原物理世界当中的一些运动的过程。

例如基于这张大家熟悉的杜甫画作,清影让杜甫不仅动了起来,而且非常自然顺滑地端起了一杯咖啡。

最后在画面调度方面,清影采用文本、时间、空间融合的Diffusion Transformer架构,可生成遵循特定运动规则的动态视频。

智谱AI豪迈地放出了几十个Demo,其中不乏有一些效果惊艳,比如这个:木头上长出两朵奇特的透明塑料花。

“透明塑料花”不是真实存在的,清影的想象力和审美在这个案例中得以展现。

再比如这个:比得兔开小汽车,游走在马路上,脸上的表情充满开心喜悦,全景画面。

清影绘制的兔子表情很丰富,没有出现五官扭曲的情况,前后景别还加了景深处理。

人像案例清影也拿捏住了,比如这个提示词:油画风格,美丽的少女侧颜,光透过树形成斑驳的影子,柔光落在她脸上。

整个画面光影对比鲜明,不过漏失了“油画”、“斑驳的影子”等细节。

二、实测上手有惊艳也有翻车,付费加速有些鸡肋

官方演示虽好,但清影到底好不好用,还是得自己试一下才能知道。打开清影网页端,可以看到有文生、图生视频两种功能。

在文生视频中,我可以选择视频风格,包括卡通3D、黑白老照片、油画等;也可以选择情感氛围,包括温馨和谐、生动活泼、紧张刺激、凄凉寂寞等;运镜方式包括水平、垂直、推近、拉远四种。

在图生视频中,我可以为图片添加文字描述,如果不知道写什么也可以空着,或是让系统随机生成一个提示词。

首先我尝试了一组动物场景的提示词,第一个为:一只蓝猫在猫爬架上,正在吃主人递过来的芝士汉堡,情感氛围选择了温馨和谐。

可以看到,清影准确理解了提示词,整体效果还是很不错的。对于提示词中细节,包括猫的品种、汉堡的种类以及“递过来”的动作等,都表达得比较精准,人手也没有翻车。

第二个提示词为:一只橘猫把鼠标推下桌子,情感氛围为生动活泼。

这次清影表现得一般,鼠标上莫名其妙拴了一只小老鼠就算了,“推下桌子”的动作也是完全没有体现。

前两个提示词都属于写实场景,第三个提示词则有些“魔幻现实”:一只白猫在车里驾驶,穿过繁忙的市区街道,背景是高楼和行人,情感氛围为紧张刺激。

清影对于这个提示词的理解和呈现都还比较准确,背景中动态场景的运动幅度、一致性也比较高,但是稳定性还有所欠缺,画面会出现抖动的情况。

第二组提示词我尝试了人物场景。首先来试试经典的吃面:一个男人坐在桌边吃面条,情感氛围为凄凉寂寞。

在这个经典难题上,清影的表现还算可以,乍一看没什么错误。但细看之下,男人吃面的餐具用的是勺子,面条的形态也有些僵硬。

第二个提示词是:一个女孩坐在米色沙发上,专心地用钩针勾着一顶浅蓝色帽子,情感氛围为温馨和谐。

这条提示词中我加入了色彩的细节,清影都准确地表现了出来。女孩的钩织动作也比较真实,就是人手非常“鬼畜”。

第三个提示词为:漂亮的水色瞳孔特写,写实风格,超清,情感氛围为凄凉寂寞。

清影生成的视频基本上满足了我的预期,不过在特写镜头下,人物的皮肤和毛发都显得有些“油腻”。

最后我尝试了让清影自己生成提示词,它直接整了这么长一段:雨天的咖啡馆,以窗户为媒介拍摄一个英式咖啡馆内部,要清晰的拍摄咖啡馆内部,捕捉咖啡馆内的温馨氛围,然后变焦,对焦在雨滴拍打的窗户上。细节上,注意捕捉顾客们的交谈和笑容,以及雨水在窗户上形成的光影效果,营造出舒适而宁静的氛围。

结果很遗憾,清影自己给自己挖了个坑,生成的不能说是视频,称之为动图都有些为难。画面仅仅是平移放大了一圈,也没能体现提示词中的大部分内容。

体验完文生视频后,我又尝试了图生视频。

首先在上传图片时,清影会提醒我对图片进行裁切,且只能裁成进行固定比例的横图,这就造成了一定的局限性。上传图片之后,我输入提示词:花瓣在风中摇动。

生成效果还是比较准确的,不过这个提示词本身的难度也不算大。

接着我上传了一张静物图,这次没有输入提示词,看看清影会如何自由发挥。

这张图上有很多独立的物体,清影并没有让它们整体运动而是为每个“小团子”添加了不同动态,整体画面比较生动活泼。

第三张图我上传了一张戴着墨镜的人像,提示词为:男孩把墨镜摘下来。

这个提示词的难度很大,而且涉及到“无中生有”的部分。清影成功表现了“摘墨镜”这一动作,不过摘了是摘了,但没完全摘,墨镜还在人脸上挂着,视频后半段还出现了人体不自然的扭曲。

如果不要求它凭空生成人脸又会如何?我有上传了一张举着摄像机的人像照片,提示词改为:男孩转身面向镜头。

结果这次清影反而整了个人脸出来,就是没有眼白有些吓人……不过忽略脸的话,这次生成的效果转身幅度更大,人物的头发也随风飘动,就是他手中的器材变了个模样,人手也有些不自然。

一番体验下来,清影生成视频的效果有的惊艳到我,比如第一个小猫吃汉堡的例子,文字理解十分准确;也有的翻车严重,比如咖啡厅、橘猫的例子中,失误都比较大。

整体来看,清影在生成速度上确实比较快,虽然较宣传的30秒还有些偏差,但差不多1分钟左右就能生成视频;在运动幅度、语义理解等方面,会比较看运气,不过这也是所有视频生成工具的通病。与市面上其他公开可用的工具相比,清影在生成时长、清晰度方面还有一定的进步空间,不支持画面比例的选择也是一大遗憾。

值得一提的是,清影目前的视频生成是完全免费的,不需要会员订阅也没有数量限制。不过在排队生成的过程中,清影提醒我可以加速。点击加速的按钮,可以看到它提供了两种订阅方式:5块钱加速1天,或是199元加速1年。

该说不说,这个价格还是很实惠的,但为啥我加完速排队时间一点也没减少呢……唯一的变化就是,从“排队中”变成了“加速排队中”。可能费用太便宜了,大家都加速就相当于没加速吧(doge)。

三、自研端到端视频模型,首个API同步上线

清影基于智谱AI自研的底层模型CogVideoX打造,具有内容连贯、可控性高等特点。

在内容连贯性方面,智谱AI自研了一个高效的三维变分自编码器结构,称之为3D VAE。它能够将原视频空间压缩至2%的大小,大大减少视频扩散生成模型的训练成本和难度,再配合3D RoPE(旋转位置编码)模块,有利于在时间维度上捕捉帧间关系,建立食品中的长程依赖。

在可控性方面,智谱AI自研了一个端到端的视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述文本,从而增强模型的文本理解和指令遵循的能力,使生成视频更符合用户的输入,理解超长的复杂指令。

在模型结构上,CogVideoX采用了将文本、时间、空间三个维度全部融合起来的Transformer架构,摒弃了传统的交叉注意力(Cross-Attention)模块,将文本和视频两个不同模态的空间进行对齐,能够更好地进行模态交互。

张鹏称,在CogVideoX的研发过程中,智谱AI有一次验证了Scaling Law在视频生成方面的有效性和可靠性,未来团队会在继续扩大数据规模和模型规模的同时,寻找更具突破式创新的模型架构。

智谱AI又一次实现了对OpenAI全模型产品线的对标。

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

▲智谱AI对标OpenAI全模型产品线

在算力方面,清影是在北京亦庄AI公共算力平台上训练而来的。数据层面,智谱AI与Bilibili、华策影视等进行了合作。

张鹏谈道,虽然视频生成模型才刚刚起步,但已经受到了很多产业和客户侧的需求,涉及电商产品宣传、影视特效等领域。

今天起,清影AI也同步在智谱AI大模型开放平台上线了API,企业和开发者都可以通过调用API的方式体验并使用CogVideoX的文生、图生视频能力,据称这也是国内上线的首个视频生成API。

随着清影能力的加入,智谱AI旗下的AI助手清言App在功能的全面上再下一城,覆盖对话、生图、代码、Agent和视频。

智谱AI还准备了一个One more thing——视频生视频能力。不过准确来说,这相当于是一个手动视频生视频的能力:基于智谱AI近日开源的视频理解模型CogVLM2-Video,用户可以上传视频并提取出详细的文字描述,再将文字输入清影,实现“视频生视频”的效果。

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

▲视频生视频

又一强力玩家入局AI视频生成

Sora发布后,AI视频生成迎来“第二春”,无论是技术、产品的迭代,还是资本市场的关注,都达到了新的高度。光是本周,就有快手宣布全球上线、爱诗科技发布第二代模型,以及今天智谱AI入局等重磅进展。(视频生成大战2.0!大厂狂卷底层模型,创企5个月吸金44亿)

不同于此前的文本、图像模型赛道,国内长期处于追逐OpenAI等海外企业进展的状态。在视频生成领域,国内的大厂、创企在短短几个月内实现弯道超车,不仅打磨出了高质量的底层模型,而且个个公开可用甚至免费,给至今仍是期货的Sora上了一课。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-27 11:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

智谱AI视频大模型上线排队30秒生成6秒视频 记者现场实测
...型清影(Ying)正式上线智谱清言,新京报贝壳财经记者实测了清影的视频生成能力,并现场采访了张鹏。记者实测:等待时间在1分钟以内 视频可选择4种风格张鹏“官宣”清影发布后,新
2024-07-27 16:43:00
视频大模型Vidu发布3个月后正式全球上线 记者实测
...大模型,Vidu有何特别之处?新京报贝壳财经记者进行了实测。分写实与动画风格 可生成4秒或8秒视频新京报贝壳财经记者发现
2024-07-31 16:06:00
国产AI可以拍微电影了!4K、60帧高清画质,自带音效
...谱的CogSound模型还能hold住什么样的音效?我们这就来一波实测。实测方法也是非常简单,我们会截取电影中的视频片段作为输入,考验的就是它能否对视频内容深入理解,并生成没
2024-11-09 09:54:00
别等Sora了!这些国产AI视频大模型,款款都超能打
...需要注意的是,该大模型免费用户仅能生成720P视频。在实测中,Vidu生成的视频质量高不下于可灵和即梦,运镜的自然流畅度比可灵还要强一些。细节方面也非常丰富,海水、椰子树、风
2024-12-11 20:13:00
智谱AI生成视频模型清影(Ying)正式上线,有“点子”就能进行创作
...问带来AI大模型的全新玩法,大模型可基于任意文字生成视频,这也是这个“大家庭”若干努力(包括Runway的Gen系列
2024-07-26 14:00:00
智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量
...模型团队自研打造。自从快手可灵 AI 火爆海内外,国内视频生成也如同 2023 年的文本大模型一样,越来越卷了。刚刚,又一视频生成大模型产品宣布正式上线:智谱 AI 正式发布
2024-07-27 09:27:00
更快、更强、更可控:智谱“起舞弄清影”,视频生成卷出新高度!
...”——曾被国际科技媒体The Information评为最有可能成为“中国OpenAI”5家企业之一的智谱AI,如今在视频生成领域再下一城
2024-07-27 10:00:00
“杜甫很忙”梗图变视频!智谱AI生成视频模型上线
7月26日,智谱AI CEO张鹏在智谱Open Day上宣布,AI生成视频模型清影(Ying)正式上线智谱清言。南都记者关注到
2024-07-27 14:18:00
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年
视频大模型进入百模大战。今年是“视频生成”大模型爆发元年。在过去两个月,我们看到了快手可灵、商汤Vimi、Luma AI
2024-07-27 09:30:00
更多关于科技的资讯:
高通第四代骁龙8s支持新一代帧生成算法:60fps游戏秒变120fps
快科技4月2日消息,今日下午,高通正式推出了第四代骁龙8s移动平台,这一新品在多个关键领域实现了显著升级。首先,其采用了全大核CPU架构
2025-04-02 18:40:00
美国加征25%让低价车无钱可赚 奔驰考虑在美撤下入门车型
快科技4月2日消息,据报道,美国将对进口汽车加征25%的额外关税,自4月2日起生效。分析师称,这将使每辆汽车的成本增加数千美元
2025-04-02 18:40:00
REDMI首发!高通第四代骁龙8s正式发布:系列首次全大核
快科技4月2日消息,今天下午,高通正式发布了全新旗舰平台——第四代骁龙8s。高通将其定义为“新生代旗舰”,专为追求出色娱乐体验和创作体验的用户打造
2025-04-02 18:40:00
蔚来乐道总裁官宣离职:辜负期待 深感愧疚
“做不到,就下课”3月销量放榜第二天,蔚来乐道品牌总裁艾铁成兑现承诺,官宣离职。去年11月广州车展上,艾铁成公开立下“军令状”
2025-04-02 18:40:00
3月交付过没过两万:蔚来乐道总裁艾铁成“下课”
难抵压力,乐道汽车总裁艾铁成还是“下课了”。4 月 2 日上午,艾铁成通过乐道 App 发表文章宣布离职,不再担任乐道汽车总裁和蔚来高级副总裁
2025-04-02 18:40:00
小米汽车司机驾驶中睡着上热搜 客服回应:智驾系统只是辅助
快科技4月2日消息,近日,有网友曝光小米汽车车主驾驶中睡着,双手离开方向盘。同行友人连喊三遍“减速”避让小米汽车。据视频显示
2025-04-02 18:40:00
永辉高管谈调改 于东来直接打断!质问月赚200万为何不涨工资
快科技4月2日消息,在近日的2025中国超市周活动现场,永辉超市负责调改的高管正在台上演讲,被胖东来创始人于东来登台打断
2025-04-02 18:40:00
博主吐槽新能源汽车门把手根本找不到 打车感觉自己像土鳖
快科技4月2日消息,近日,一位博主在社交媒体上吐槽新能源汽车的门把手设计,引发了广泛关注和讨论。随着网约车的普及,乘客们发现
2025-04-02 18:40:00
全球富豪榜变化:马斯克仍高居榜首 巴菲特跃居第五
今年年初,全球千亿美元级超级富豪数量为16人,但如今已降至13人。这一变化源于美股在一季度遭遇自2022年以来最严重的季度跌幅
2025-04-02 19:10:00
REDMI/iQOO首批商用!一图了解高通第四代骁龙8s
快科技4月2日消息,今天下午,高通正式发布第四代骁龙8s。据悉,第四代骁龙8s基于台积电4nm工艺制造,其Kryo CPU采用1+3+2+2的 “1超7大” 架构设计
2025-04-02 19:10:00
比亚迪21%毛利率背后的变革
2025年只过了3个月,比亚迪的营收能力再次震慑车圈。3月24日,比亚迪发布2024年财务报告。财报显示,2024年比亚迪营业收入7771
2025-04-02 19:10:00
快科技4月2日消息,据媒体报道,4月1日至18日,武汉近10万名初三生参加体育中考,全面采用“智能设备+云端管理”模式
2025-04-02 19:10:00
算法并非万能!央视呼吁:“智能驾驶”也请握紧方向盘
快科技4月2日消息,近日,有关智能驾驶而引发的交通事故在网络上引起了大家的热烈讨论,对此,央视网评指出,“智能驾驶”,也请握紧方向盘
2025-04-02 19:10:00
中石油管道局科新公司破解纳米孔洞“结构密码”
河北新闻网讯(杨志明、杨洁、张珊榕)近日,中石油管道局投运公司中油科新化工有限公司(以下简称“科新公司”)在纳米材料研究领域获得重要突破
2025-04-02 19:17:00
真正的Windows on Arm!大神最新魔改成果:智能手表运行Windows
快科技4月2日消息,近日,名为Gustave Monce的开发者最新成果惊呆了众多网友,他成功将Windows操作系统运行在智能手表上
2025-04-02 19:40:00