• 我的订阅
  • 科技

国产AI可以拍微电影了!4K、60帧高清画质,自带音效

类别:科技 发布时间:2024-11-09 09:54:00 来源:量子位

国产AI,正式把视频生成拉进了有声电影时代。

自从Sora引爆视频生成之后,基本上所有AI生成的视频都属于“默片”的效果,也就是没有对应的音效(注意不是配乐)。

但现在,音效是可以直接自带了!而且还是4K、60帧高清画质的那种。

那么AI视频生成现在能到什么水平?

我们直接拿这个国产AI做了个微电影,请看VCR:

如何?是不是已经有电影的那个feel了?

这个国产AI,正是智谱刚升级的新清影,总体来看有三大特点:

电影级效果:除了刚才提到的4K、60帧高清之外,还支持10秒时长和任意比例视频。 模型能力全面提升:背后的CogVideoX模型更懂复杂prompt,能够保持人物等主体的连贯性,效果更逼真。 自带音效:引入CogSound模型,能够自动根据视频内容生成匹配的音效,这个月将正式上线清言APP。

如此一来,AI已经具备了制作像上面这样微电影(或短视频)的全要素,而且在操作上也是非常简单。

我们先把一个主题“喂给”智谱清言的GLM 4 Plus,让它帮我们生成微电影的脚本:

国产AI可以拍微电影了!4K、60帧高清画质,自带音效

然后我们再用文生图的AI,生成几张高清大图,以开头片段为例,Prompt是这样的:

镜头从公园的鸟鸣和晨光中缓缓推进,聚焦在一位满头白发的老太太身上。她坐在长椅上,手中拿着一本书,眼神宁静而深远。

国产AI可以拍微电影了!4K、60帧高清画质,自带音效

再进入新清影的图生视频界面,把这张图像传上去,并填写想要效果的prompt:

镜头从公园的鸟鸣和晨光中缓缓推进,聚焦在一位满头白发的老太太身上。她坐在长椅上,缓缓把书合上,望向远方陷入深思。

国产AI可以拍微电影了!4K、60帧高清画质,自带音效

接着在下方面选择基础参数即可:

国产AI可以拍微电影了!4K、60帧高清画质,自带音效

在静候片刻之后,一段电影级别、自带音效的高清视频片段就这么水灵灵的诞生了。

重复上面的方法,我们便可以得到后边的那些视频片段。

至于旁白部分,采用的则是智谱在前不久刚发布的GLM-4-Voice情感语音模型,可以做到宛如真人配音。

嗯,打得就是一套智谱的AI组合拳。

国产AI可以拍微电影了!4K、60帧高清画质,自带音效

而联想人类从第一部无声电影(1895年)到第一部有声电影(1927年),足足花费了32年。

若是从Sora算起,那么AI生成的视频从无声到有声,耗时仅仅9个月。

此时此刻,“AI一天,人间一年”这句话,是真真儿的具象化了。

随意一段视频,秒出有声电影片段

那么智谱的CogSound模型还能hold住什么样的音效?

我们这就来一波实测。

实测方法也是非常简单,我们会截取电影中的视频片段作为输入,考验的就是它能否对视频内容深入理解,并生成没有违和感的音效。

Round 1:自然环境

我们先取一段雨天傍晚房间里的一个视频,把它“喂”给CogSound模型(注:以下原视频都是无声的),生成出来的音效是这样的:

CogSound精准地get到了“下雨”这个关键元素,从音效上来看也是毫无违和感。

再来欣赏一段由清影生成、CogSound加音效的视频片段:

Round 2:动物世界

我们再来试试CogSound能否看视频识别出动物的声音:

CogSound不仅生成出了狮子妈妈低沉的叫声,也发觉到了它们处于自然环境之下,还配上了鸟鸣的声音。

Round 3:多种乐器

接下来,我们上个难度,输入一段有多个乐器演奏的视频频段:

可以看到,从视频一开始的画面来看,萨克斯这个乐器应当是“主角”,所以在乐器混合的音效中,萨克斯的声音是最大的。

而当萨克斯手用力吹奏的时候,CogSound配的音效竟也有了音乐上的起伏,说实话,这一点确实是有点令人意外。

但要非挑个问题的话,或许镜头在转向钢琴的时候,乐器的音效上,钢琴声音变大一些会更好些。

Round 4:科幻电影

最后,我们再“喂”一个超级复杂的视频片段——《流浪地球》:

讲真,若不是知道这是CogSound生成的,很多人应该都会认为它是电影原声了吧。

由此可见,不论“喂”给CogSound模型什么类型的视频,它都可以做到对视频内容的精准理解,并且给出对应音效。

除此之外,在视频本身生成的能力上,智谱的CogVideo也有了大幅的提升。

例如生成的下面这位老爷爷,情绪和表情的变化,宛如在看一个电影片段:

还有像非常科幻的火焰老虎:

而从上面两个例子中,我们也不难发现,CogVideoX现在是可以支持多种比例视频的生成。

那么接下来的问题就是:

怎么做到的?

首先是CogVideo的升级,主要集中体现在了内容连贯性、可控性和训练效率等方面的能力提升。

其整体的模型框架如下图所示,是基于多个专家Transformer模块,通过文本编码器将输入的文本转化为潜在向量,再经由3D卷积和多层专家模块处理,生成连续的视频序列。

国产AI可以拍微电影了!4K、60帧高清画质,自带音效

整个过程可视为将自然语言描述转化为动态视觉内容的复杂系统。

在模型架构设计中,CogVideoX特别采用了因果3D卷积(Causal 3D Convolution),以高效捕捉时空维度上的复杂变化,使得模型能够更加精确地理解和生成富有细节的场景。

同时,该模型引入了专家自适应层归一化(AdaLN),通过动态调整不同模块的特性,从而在视觉表现上实现更自然、更具连贯性的视频生成。

为了应对视频压缩与计算效率的挑战,CogVideoX采用了3D VAE结构,通过对视频特征在空间和时间上的下采样,大幅降低了视频存储与计算开销。

国产AI可以拍微电影了!4K、60帧高清画质,自带音效

这意味着即便在资源有限的计算环境下,CogVideoX仍能生成高质量的视频内容,显著提升了其应用的可行性。

如果说CogVideoX负责生成可视的动态内容,那么CogSound则赋予这些画面以听觉上的生命。

CogSound是一种为无声视频自动生成音效的模型,能够基于视频内容智能合成背景音乐、对话音频及环境音效,其架构如下图所示:

国产AI可以拍微电影了!4K、60帧高清画质,自带音效

CogSound的核心技术依托于GLM-4V的多模态理解能力,能够精确解析视频中的语义和情感,并生成匹配的音效。

例如,在展示森林景观的视频中,CogSound能够生成鸟鸣和风吹树叶的声音;而在城市街景中,则会生成车流与人群的背景噪音。

为实现这一目标,CogSound利用了潜空间扩散模型(Latent Diffusion Model),通过将音频特征从高维空间进行压缩并再扩展,从而有效地生成复杂音效。

此外,CogSound通过块级时间对齐交叉注意力(Block-wise Temporal Alignment Cross-attention)机制,确保生成的音频在时间维度和语义上与视频内容高度一致,避免了传统音画合成中常见的错位和不协调问题。

这便是智谱CogVideoX能力提升和CogSound背后的技术秘笈了。

短视频迈入了AI时代

多模态是通往AGI的必经之路。

这是智谱在很早之前便提出的一个认知,而随着此次CogSound的发布,其多模态的矩阵可谓是再添一块拼图。

而它的多模态之路,可以追溯到2021年,具体到细节领域分别是:

文本生成(GLM)、图像生成(CogView)、视频生成(CogVideoX)、音效生成(CogSound)、音乐生成(CogMusic)、端对端语音(GLM-4-Voice)、自主代理(AutoGLM)。

若问这一步步走来,对现在的技术和行业带来了哪些改变,答案或许是——

起码在短视频制作领域,是时候可以迈入AI时代了。

首先就是更高质量、更符合物理世界规则的生成视频,在内容逻辑和视觉上基本上可以够到短视频制作的门槛。

加之CogVideoX还支持非常多的尺寸,更符合用户在各种场景下的制作需求。

而最为关键的一点,随着CogSound把视频生成拉进“有声电影”时代,使得输出的结果不仅满足了视觉的要求,更是符合了真实物理世界中的听觉要求。

正如智谱所言:

真正的智能一定是多模态的,听觉、视觉、触觉等共同参与了人脑认知能力的形成。

据悉,CogSound即将在智谱清言上线,而且智谱还将发布音乐模型CogMusic。

加之此前已经发布的GLM-4-Voice人声模型,智谱可以说是把视频生成中的“音”这块全面hold住。

总而言之,现在做短视频,或许就成了有想法就能实现的事儿了。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-09 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

2024想买海信电视,别盲目乱选,目前这3款最值得买,观感体验强
...信电视还有独特的核心优势,电视芯片自主开发能力,在画质调校方面有核心技术。海信的电视有着不少亮点,例如自家的ULED技术,使得屏幕画质更加高清、丝滑等,有量子点高色域,改善色
2024-03-22 09:14:00
当贝F6:高清画质,临场音效,享视听盛宴!
...畅色彩丰富,彷如把自然影像搬进荧幕。搭载Hi-SuperClear画质降噪引擎,逐帧去噪,画面纯净通透,璨星河与自然万象均可高帧还原,每一帧画面都如远景再现一般。 它的外观
2023-11-02 10:25:00
小明Q2投影仪:家庭影院新宠,999元轻松拥有,尽享视听盛宴
...不仅可以实现高清1080P投影,还支持超30000部超高清与HDR画质的影视资源。每一帧画面都真实细腻,让我完全沉浸在了精彩的影视世界里。对于一个电影爱好者来说,这样的画质表
2023-04-30 00:57:00
2023年热门新品,康佳首款封闭光机E20Pro投影上市,百元高清太香了!
...光效利用率,获得更亮、更清晰和细腻的投影画面。清晰画质与智能功能更高品质的光机设计,为康佳E20Pro的投影质量打下了基础
2023-11-30 14:20:00
黑胶音质,蓝光画质,知麻新品S1投影仪5.20震撼登场
...全新升级留声机投影S1,它能带来什么不一样的体验?高清画质带来全新体验知麻s1采用旗舰芯片和旗舰液晶屏双料硬核加持
2023-05-12 18:00:00
2025UWA SUMMIT暨世界超高清视频产业联盟会员大会主论坛在深圳成功举办
...丰富经验,系统阐述了超高清标准体系与人工智能技术在画质评估等方面的深度融合,回顾了媒体工作流程的演进历程,并强调AI已成为推动工作流程优化的关键驱动力。他指出,超高清与高动态
2025-11-11 22:04:00
千元不到看投影:小明Q2投影仪,999元即可体验
...它不仅支持高清1080P投影,还兼容超过30000部超高清与HDR画质的影视资源。每一帧画面都如此真实细腻,让我在观影过程中流连忘返。作为一款999元的投影仪,小明Q2投影仪
2023-04-30 00:57:00
小米发力,4K超高清屏+HDR10+显示+55英寸,只售1549元!
...体显得更加高端大气,与各种家居风格相得益彰。 二、画质表现作为一款4K超高清电视,Redmi智能电视A55 2024款在画质表现上自然不负众望。它采用了先进的显示技术,能够
2024-03-27 09:02:00
...中,CINITY沉浸式音效让引擎轰鸣声仿佛就在耳畔,4K高清画质呈现的赛车竞速画面,令观众如临现场,肾上腺素飙升;科幻动画《地球特派员》通过CINITY绚丽丰富的色彩表现,将
2025-06-30 11:32:00
更多关于科技的资讯:
索乙“哭哭马”的逆袭不可复制,但年轻人情绪消费的潜力不可忽视。如果说,生产商火速将“次品”转化为爆款,形成强大的复制生产能力所展现的市场嗅觉与“变现”能力令人欣慰
2026-01-13 14:07:00
WOOK创始人许龙华:以“拙”胜“巧” 构建中国品牌出海的高速公路
十五年前,若不是一次印度尼西亚之行,WOOK创始人许龙华或许不会注意到当地零售市场假货漫天遍地,3C零售市场两极分化的混乱状态
2026-01-13 14:37:00
泰岳天成荣获2025年度电力创新奖一等奖
日前,2025年度中国电力企业联合会电力创新奖拟授奖成果正式公示。神州泰岳旗下泰岳天成参与的《基于人工智能的输变电设备全域状态感知与辅助决策技术及应用》荣获一等奖
2026-01-13 14:37:00
四大趋势引领北京青年消费潮流
跨年夜,大学生小赵融入华熙LIVE的人潮,散场后选择公交+共享单车返程——既享节日氛围,又不盲目为虚荣买单。这正是2025年北京青年消费市场的生动缩影
2026-01-13 14:37:00
旭化成微电子发布小型、支持表面贴装的CO₂传感器S12 CO₂:通过CO₂浓度控制空调系统,助力实现零能耗建筑
旭化成微电子株式会社(总公司:东京都千代田区、法定代表人总经理:篠宫秀行)旗下子公司Senseair开发出新型CO₂传感器S12 CO₂
2026-01-13 14:37:00
唐传艳国家医保局1月11日印发通知,开展“个人医保云”建设试点申报工作,今年2月至12月将在部分地区试点建设“个人医保云”
2026-01-13 14:37:00
在全球化求职市场竞争日趋激烈的当下,专业求职咨询机构已成为求职者突破信息壁垒、提升竞争优势的重要助力。其中,筑梦求职(INTERNATIONAL IDEAL)凭借多年深耕积累的深厚底蕴
2026-01-13 14:41:00
全球智慧家庭发明专利榜单揭晓:海尔智家14连冠
在智慧家庭领域,专利是衡量企业科技实力的重要指标。专利不仅能直观反映研发投入与创新节奏,更能体现企业对核心技术的掌控力与前瞻性
2026-01-13 14:43:00
陈燕红律师:学术研究与法律实战的双向赋能
北京德和衡律师事务所副总裁、高级权益合伙人陈燕红律师,扎根于商事金融争议解决领域,所代理的案件累计争议标的跨越千亿元量级
2026-01-13 15:07:00
工行临沂商谷支行多维赋能提升客户满意度
鲁网1月13日讯今年以来,工行临沂商谷支行始终坚持以人民为中心的服务导向,坚持以客户需求为导向,通过优化服务流程、强化员工能力
2026-01-13 15:20:00
江苏省公布新一批公共数据“跑起来”场景实践案例 南京江宁区AI赋能精准招商应用场景入选
我省公布新一批公共数据“跑起来”场景实践案例江宁区AI赋能精准招商应用场景入选南报网讯(通讯员宁数轩记者马道军)近日,省数据局确定7个场景纳入2025年第6批(总第6批)公共数据“跑起来”县(市
2026-01-13 15:20:00
南报网讯(记者张希)近日,江苏省商务厅公布新一批跨国公司地区总部及功能性机构认定结果,位于江宁开发区的法雷奥凯佩科液力变矩器(南京)有限公司成功入选
2026-01-13 15:20:00
河北新闻网讯(李娜)近日,招商银行唐山分行深入贯彻金融服务实体经济的政策要求,积极践行普惠金融理念,通过精准锚定供应链及场景金融
2026-01-13 15:46:00
北方首家“机器人6S店”落地济南,意味着什么?
人形机器人跳现代舞、舞彩带龙,机器狗舞狮子、做俯卧撑、翻跟头……11月28日,位于济南高新区汉峪金谷的预见未来机器人6S中心正式开业
2026-01-13 15:54:00
鸿蒙版“陕西医保”App全新升级
近日,鸿蒙版“陕西医保”App完成全面升级,正式以更智慧、更安全、更便捷的姿态服务全省参保群众。陕西医保App作为承载全省医保数字化转型核心使命的官方平台
2026-01-13 15:54:00