• 我的订阅
  • 科技

AI视频进入有声时代!谷歌发布视频生成音频技术,效果惊艳网友!

类别:科技 发布时间:2024-06-20 09:27:00 来源:新榜

Runway前脚刚发布Gen-3 Alpha,Google后脚就跟了个王炸。

AI视频进入有声时代!谷歌发布视频生成音频技术,效果惊艳网友!

北京时间6月18日凌晨,Google Deepmind发布了视频生成音频(Video-to-Audio,V2A)技术的进展,可以为视频创建戏剧性的背景音乐,逼真的音效,甚至是人物之间的对话。

V2A技术支持为AI生成视频“配乐”,Google还特别强调了官网发布的Demo视频都是由自家在五月份发布的生成视频模型“Veo”和V2A技术合作打造。

有不少网友表示,这下终于可以给用Luma生成的meme视频配上声音了!

AI视频进入有声时代!谷歌发布视频生成音频技术,效果惊艳网友!

从Google Deepmind官网发布的Blog上看,V2A技术会采用视频像素和文本提示来生成与底层视频同步的音频波形。

首先,V2A会对视频和文本提示进行编码,并通过扩散模型迭代运行,将随机噪声细化为与视频和所提供的文本提示相匹配的真实音频,最后再对音频进行解码并与视频数据相结合。

AI视频进入有声时代!谷歌发布视频生成音频技术,效果惊艳网友!

X网友纷纷表示太赞了,但就是有一个小小小小的问题,和同样是凌晨发布的Runway的视频生成模型Gen-3 Alpha一样,这

又是一个大家都用不上的超赞模型,到底啥时候开源让咱们试试水!

AI视频进入有声时代!谷歌发布视频生成音频技术,效果惊艳网友!

AI视频进入有声时代!谷歌发布视频生成音频技术,效果惊艳网友!

先不急,我们先尝尝官方发布的Demo咸淡!

Google认为,AI视频生成模型飞速发展,但市面上的大多数模型,不管是Sora、Luma,还是刚刚发布的Gen-3 Alpha,都只能生成无声视频。

而Google所研发的V2A技术能够使AI视频进入“有声时代”,进一步推动AI在视听方面的完善与发展。

从Demo视频来看,其效果真的挺丝滑的,怪不得Google“夸下海口”!

比如这个,画面中一个人从前走到后,可以听到令人不安的背景音乐和嘎吱嘎吱的脚步声。

AI视频进入有声时代!谷歌发布视频生成音频技术,效果惊艳网友!

【提示:电影、惊悚片、恐怖片、音乐、紧张感、氛围、混凝土上的脚步声。Prompt for audio: Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete】

诸如此类的视频配乐还有小恐龙破壳的声音、打鼓的音乐声、车流声等等。

AI视频进入有声时代!谷歌发布视频生成音频技术,效果惊艳网友!

【提示:可爱的小恐龙鸣叫、丛林氛围、鸡蛋破裂。Prompt for audio: Cute baby dinosaur chirps, jungle ambience, egg cracking】

AI视频进入有声时代!谷歌发布视频生成音频技术,效果惊艳网友!

【提示:音乐会舞台上的鼓手被闪烁的灯光和欢呼的人群包围。Prompt for audio: A drummer on a stage at a concert surrounded by flashing lights and a cheering crowd】

AI视频进入有声时代!谷歌发布视频生成音频技术,效果惊艳网友!

【提示:汽车打滑、汽车发动机节流、天使般的电子音乐。Prompt for audio: cars skidding, car engine throttling, angelic electronic music】

Google还强调,V2A技术之所以能够在卷得要命的AI视频圈“脱颖而出”,是因为该技术可以理解原始像素,因而哪怕不输入文本提示,只要用户提供视频,该技术也可以为其“配乐”。

例如,下面吉他声和自行车声是在没有任何提示的情况下合成的。

AI视频进入有声时代!谷歌发布视频生成音频技术,效果惊艳网友!

AI视频进入有声时代!谷歌发布视频生成音频技术,效果惊艳网友!

V2A技术也可以生成人物对话,比如下面视频中角色所说的台词,“这只火鸡看起来棒极了,我好饿啊(this turkey looks amazing, I'm so hungry)”。

AI视频进入有声时代!谷歌发布视频生成音频技术,效果惊艳网友!

不过从视频中看,人物唇形与台词并不完全匹配,因为视频模型不会生成与转录文本相匹配的嘴部动作,Google也承认这一部分仍在研究完善当中。

此外,V2A技术还支持为视频输入生成无限数量的音轨,用户可以选择定义“正提示”来引导生成所需的声音,或定义“负提示”来引导远离不需要的声音。

这种灵活性使用户能够更好地控制V2A的音频输出,从而可以快速尝试不同的音频输出,并选择最佳匹配。

下面三个视频是Google放出的Demo,我们猜测Google是想说明用户可以用不同的文本提示来定向地修改配乐中的一些要素,不过好像不太明显

AI视频进入有声时代!谷歌发布视频生成音频技术,效果惊艳网友!

【提示:一艘宇宙飞船在浩瀚的太空中疾驰,星星从它身边飞过,速度很快,科幻感。Prompt for audio: A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi】

AI视频进入有声时代!谷歌发布视频生成音频技术,效果惊艳网友!

【提示:空灵的大提琴氛围。Prompt for audio: Ethereal cello atmosphere】

AI视频进入有声时代!谷歌发布视频生成音频技术,效果惊艳网友!

【提示:一艘宇宙飞船在浩瀚的太空中疾驰,星星从它身边飞过,速度很快,科幻效果。Prompt for audio: A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi】

虽然该技术还未开源,但从现有的Demo来看,待其开源之时,必将又掀起AI视频圈一阵大风浪。

届时我们估计能看到AI圈“大混战”——Runway的Gen-3 Alpha刚生成一个视频,隔壁V2A就给它把音乐配好了;Meme变视频还没玩够呢,用户们已经等不及给它配上声音了。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-20 13:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

谷歌VideoPoet大模型上线,生成长达10秒视频,还可自动配音 | 最前线
...咏仪 尚恩Google又又又发布了新模型,这次是在文生/图生视频赛道又“卷”了一把对手们。12月19日,谷歌专门发了一款搞视频生成的模型VideoPoet
2023-12-22 14:45:00
斯坦福AI视频生成工具免费开放!30秒时长,马斯克看了效果会沉默
一水 发自 凹非寺量子位 | 公众号 QbitAI将音频、图像、视频整合进同一工作流,这个由斯坦福初创公司发布的视频工具火了!预览版支持生成30S逼真视频,网友们直呼不输Luma
2024-06-21 11:01:00
让霉霉说地道中文,背后玩家竟来自中国,7个月收入百万美元
文 | 虞景霖 尚恩编辑 | 邓咏仪最近,霉霉说地道中文的视频在全网疯传。没有机械的翻译腔,霉霉用自然而地道的语气讲述自己最近的游历,甚至连嘴型都卡点对上,效果堪称绝绝子。还没有
2023-10-23 19:41:00
音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘
近期,来自字节跳动的视频生成模型 Loopy,一经发布就在 X 上引起了广泛的讨论。Loopy 可以仅仅通过一张图片和一段音频生成逼真的肖像视频,对声音中呼吸,叹气,挑眉等细节都
2024-09-13 13:34:00
500字的文稿30秒即可生成音频文件 加快培育媒体新质生产力 国家(杭州)短视频基地揭牌
国家(杭州)短视频基地设计效果图4月26日,由中央广播电视总台与浙江省人民政府联合共建的国家(杭州)短视频基地在杭州揭牌。移动互联网时代,短视频已成为传输信息资讯的新媒介、记录日
2024-04-27 08:13:00
字节跳动放大招!OmniHuman数字人模型即将上线:一张图+一段音频即可生成视频
快科技2月7日消息,近期,抖音集团旗下图片视频工具即梦AI在官方社交媒体上发布了一条新功能上线预告片。视频显示,新功能采用了全新的多模态视频生成模型OmniHuman,让用户仅需
2025-02-07 18:15:00
国产AI可以拍微电影了!4K、60帧高清画质,自带音效
国产AI,正式把视频生成拉进了有声电影时代。自从Sora引爆视频生成之后,基本上所有AI生成的视频都属于“默片”的效果,也就是没有对应的音效(注意不是配乐)。但现在,音效是可以直
2024-11-09 09:54:00
Sora刷屏 标贝科技AI配音为音视频内容创作插上翅膀
...技网】新年伊始,OpenAI 扔出一枚重磅炸弹——发布文生视频模型 Sora。作为一款全新生成式人工智能模型, Sora能够根据文本指令创造出既逼真又富有想象力的场景
2024-02-29 12:00:00
Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功
...刚惊艳来袭。Movie Gen可生成1080p、16秒、每秒16帧的高清长视频,还能生成音效、编辑视频、上传图像生成个性化视频
2024-10-08 09:52:00
更多关于科技的资讯: