我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

AI视频进入有声时代！谷歌发布视频生成音频技术，效果惊艳网友！

类别：科技发布时间：2024-06-20 09:27:00 来源：新榜

Runway前脚刚发布Gen-3 Alpha，Google后脚就跟了个王炸。

北京时间6月18日凌晨，Google Deepmind发布了视频生成音频（Video-to-Audio，V2A）技术的进展，可以为视频创建戏剧性的背景音乐，逼真的音效，甚至是人物之间的对话。

V2A技术支持为AI生成视频“配乐”，Google还特别强调了官网发布的Demo视频都是由自家在五月份发布的生成视频模型“Veo”和V2A技术合作打造。

有不少网友表示，这下终于可以给用Luma生成的meme视频配上声音了！

从Google Deepmind官网发布的Blog上看，V2A技术会采用视频像素和文本提示来生成与底层视频同步的音频波形。

首先，V2A会对视频和文本提示进行编码，并通过扩散模型迭代运行，将随机噪声细化为与视频和所提供的文本提示相匹配的真实音频，最后再对音频进行解码并与视频数据相结合。

X网友纷纷表示太赞了，但就是有一个小小小小的问题，和同样是凌晨发布的Runway的视频生成模型Gen-3 Alpha一样，这

又是一个大家都用不上的超赞模型，到底啥时候开源让咱们试试水！

先不急，我们先尝尝官方发布的Demo咸淡！

Google认为，AI视频生成模型飞速发展，但市面上的大多数模型，不管是Sora、Luma，还是刚刚发布的Gen-3 Alpha，都只能生成无声视频。

而Google所研发的V2A技术能够使AI视频进入“有声时代”，进一步推动AI在视听方面的完善与发展。

从Demo视频来看，其效果真的挺丝滑的，怪不得Google“夸下海口”！

比如这个，画面中一个人从前走到后，可以听到令人不安的背景音乐和嘎吱嘎吱的脚步声。

【提示：电影、惊悚片、恐怖片、音乐、紧张感、氛围、混凝土上的脚步声。Prompt for audio: Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete】

诸如此类的视频配乐还有小恐龙破壳的声音、打鼓的音乐声、车流声等等。

【提示：可爱的小恐龙鸣叫、丛林氛围、鸡蛋破裂。Prompt for audio: Cute baby dinosaur chirps, jungle ambience, egg cracking】

【提示：音乐会舞台上的鼓手被闪烁的灯光和欢呼的人群包围。Prompt for audio: A drummer on a stage at a concert surrounded by flashing lights and a cheering crowd】

【提示：汽车打滑、汽车发动机节流、天使般的电子音乐。Prompt for audio: cars skidding, car engine throttling, angelic electronic music】

Google还强调，V2A技术之所以能够在卷得要命的AI视频圈“脱颖而出”，是因为该技术可以理解原始像素，因而哪怕不输入文本提示，只要用户提供视频，该技术也可以为其“配乐”。

例如，下面吉他声和自行车声是在没有任何提示的情况下合成的。

V2A技术也可以生成人物对话，比如下面视频中角色所说的台词，“这只火鸡看起来棒极了，我好饿啊（this turkey looks amazing, I'm so hungry）”。

不过从视频中看，人物唇形与台词并不完全匹配，因为视频模型不会生成与转录文本相匹配的嘴部动作，Google也承认这一部分仍在研究完善当中。

此外，V2A技术还支持为视频输入生成无限数量的音轨，用户可以选择定义“正提示”来引导生成所需的声音，或定义“负提示”来引导远离不需要的声音。

这种灵活性使用户能够更好地控制V2A的音频输出，从而可以快速尝试不同的音频输出，并选择最佳匹配。

下面三个视频是Google放出的Demo，我们猜测Google是想说明用户可以用不同的文本提示来定向地修改配乐中的一些要素，不过好像不太明显

【提示：一艘宇宙飞船在浩瀚的太空中疾驰，星星从它身边飞过，速度很快，科幻感。Prompt for audio: A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi】

【提示：空灵的大提琴氛围。Prompt for audio: Ethereal cello atmosphere】

【提示：一艘宇宙飞船在浩瀚的太空中疾驰，星星从它身边飞过，速度很快，科幻效果。Prompt for audio: A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi】

虽然该技术还未开源，但从现有的Demo来看，待其开源之时，必将又掀起AI视频圈一阵大风浪。

届时我们估计能看到AI圈“大混战”——Runway的Gen-3 Alpha刚生成一个视频，隔壁V2A就给它把音乐配好了；Meme变视频还没玩够呢，用户们已经等不及给它配上声音了。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-06-20 13:45:03

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于视频,生成,音频,效果,网友,时代的资讯：

谷歌VideoPoet大模型上线，生成长达10秒视频，还可自

...咏仪尚恩Google又又又发布了新模型，这次是在文生/图生视频赛道又“卷”了一把对手们。12月19日，谷歌专门发了一款搞视频生成的模型VideoPoet

2023-12-22 14:45:00

斯坦福AI视频生成工具免费开放！30秒时长，马斯克看了效果会

一水发自凹非寺量子位 | 公众号 QbitAI将音频、图像、视频整合进同一工作流，这个由斯坦福初创公司发布的视频工具火了！预览版支持生成30S逼真视频，网友们直呼不输Luma

2024-06-21 11:01:00

让霉霉说地道中文，背后玩家竟来自中国，7个月收入百万美元

文 | 虞景霖尚恩编辑 | 邓咏仪最近，霉霉说地道中文的视频在全网疯传。没有机械的翻译腔，霉霉用自然而地道的语气讲述自己最近的游历，甚至连嘴型都卡点对上，效果堪称绝绝子。还没有

2023-10-23 19:41:00

音频驱动人像视频模型：字节Loopy、CyberHost研究

近期，来自字节跳动的视频生成模型 Loopy，一经发布就在 X 上引起了广泛的讨论。Loopy 可以仅仅通过一张图片和一段音频生成逼真的肖像视频，对声音中呼吸，叹气，挑眉等细节都

2024-09-13 13:34:00

500字的文稿30秒即可生成音频文件加快培育媒体新质生产力

国家（杭州）短视频基地设计效果图4月26日，由中央广播电视总台与浙江省人民政府联合共建的国家（杭州）短视频基地在杭州揭牌。移动互联网时代，短视频已成为传输信息资讯的新媒介、记录日

2024-04-27 08:13:00

字节跳动放大招！OmniHuman数字人模型即将上线：一张图

快科技2月7日消息，近期，抖音集团旗下图片视频工具即梦AI在官方社交媒体上发布了一条新功能上线预告片。视频显示，新功能采用了全新的多模态视频生成模型OmniHuman，让用户仅需

2025-02-07 18:15:00

国产AI可以拍微电影了！4K、60帧高清画质，自带音效

国产AI，正式把视频生成拉进了有声电影时代。自从Sora引爆视频生成之后，基本上所有AI生成的视频都属于“默片”的效果，也就是没有对应的音效（注意不是配乐）。但现在，音效是可以直

2024-11-09 09:54:00

Sora刷屏标贝科技AI配音为音视频内容创作插上翅膀

...技网】新年伊始，OpenAI 扔出一枚重磅炸弹——发布文生视频模型 Sora。作为一款全新生成式人工智能模型， Sora能够根据文本指令创造出既逼真又富有想象力的场景

2024-02-29 12:00:00

Meta版Sora深夜横空出世，小扎放出16秒高清大片！92

...刚惊艳来袭。Movie Gen可生成1080p、16秒、每秒16帧的高清长视频，还能生成音效、编辑视频、上传图像生成个性化视频

2024-10-08 09:52:00

更多关于科技的资讯：

厦门半导体显示产业孵化器揭牌

天马微电子已在厦建设5条先进生产线，助推厦门形成主流显示技术全覆盖的布局。图为参会代表参观天马微电子的展出产品。（厦门日报记者林铭鸿摄）厦门网讯（厦门日报记者林露虹通讯员管轩雷飏）打造新型显示产业高地

2025-12-11 08:18:00

Meta使用阿里千问优化其最新AI模型

12月10日晚间消息，据彭博社报道，美国科技巨头Meta在训练其代号为“牛油果”的新模型时，使用了阿里巴巴Qwen模型进行蒸馏优化

2025-12-11 08:34:00

2025年最新苹果手机系统修复软件：原理、工具与选择指南

当iPhone屏幕突然冻结在苹果标志上无法启动,或是在系统更新后陷入无限重启的循环,很多用户的第一反应是连接电脑使用iTunes恢复

2025-12-11 08:38:00

双碳驱动创新迭代特锐德以零碳建筑与智能泊车构建城市绿色生态

鲁网12月9日讯深耕新能源与电力装备产业20余年的制造业单项冠军企业——特锐德集团，顺应国家“双碳”战略与产业转型升级需求

2025-12-11 08:39:00

以资本赋能科技创新华夏股权领投云深处科技

近日，华夏基金旗下股权投资平台——华夏股权宣布完成对杭州云深处科技的联合领投。此次投资不仅是华夏股权在机器人及智能装备产业链的关键战略布局

2025-12-11 09:42:00

纵览宠粉计划丨集福卡赢好礼！纵览新闻宠粉活动放大招啦～

纵览宠粉计划第四轮来啦！12月11日至18日福利拉满集齐八张福卡超多好礼带回家点击上图直达活动不管你是纵览的老粉还是刚加入的新朋友这场专属活动千万别错过在前两场活动广受欢迎的演出票

2025-12-11 09:48:00

拧紧“监管阀”，熄灭“生鲜灯”

近日，记者调查发现，美颜生鲜灯并未完全退出市场，而是以隐蔽姿态继续“发光”。在沿街商铺、小区周边门店内，有不少商家使用明令禁止的红罩红光生鲜灯

2025-12-11 09:53:00

以时光炼技能，以热爱赴荣光：华润万家第二届“万家工匠”全国技

聚光灯照亮领奖台，掌声致敬每一份坚守，12月8日下午，第二届“万家工匠”全国技能大赛总决赛颁奖典礼圆满落幕。历经赛场的激烈角逐与专业的层层考量

2025-12-11 10:51:00

数字科技驱动心灵健康新范式广州勤圣伊科技有限公司引领心理咨

在心理健康日益受到全社会重视的背景下，广州勤圣伊科技有限公司(以下简称“勤圣伊科技”)凭借其“科技融合专业”的创新模式

2025-12-11 11:02:00

科技赋能心灵关怀：广州勤圣亦科技有限公司打造数字化心理健康新

近日，专注于心理健康领域的广州勤圣亦科技有限公司(以下简称“勤圣亦科技”)宣布，其通过“科技+专业服务”的创新模式，在心理咨询服务数字化与普惠化方面取得显著进展

2025-12-11 11:04:00

云深处科技完成超5亿元C轮融资

12月9日，云深处科技宣布完成超5亿元人民币C轮融资。本轮融资由招银国际和华夏基金联合领投，中国电信、中国联通旗下基金参与战略投资

2025-12-11 11:15:00

以融资租赁之力，赋能产业升级 ——2025 PA“租赁节”拉

2025年是“十四五”规划收官之年，我国产业结构转型进入深化攻坚阶段，融资租赁作为服务实体经济、产业转型升级中的重要力量

2025-12-11 11:22:00

依靠学习走向未来——好书推荐书单：以书为帆智行致远

01、《电动中国》作者：杨旭东、黄郑出版社：新华出版社书中将中国新能源科技发展置于能源革命与国际竞争的双重视角下，分析动力电池

2025-12-11 12:43:00

2025年最新视频模糊变清晰软件：揭秘AI修复技术与实用工具

近年来,AI驱动的修复视频清晰度软件逐渐普及,无论是老旧的VHS录像、噪点明显的夜间视频,还是压缩导致的画质损失,都有机会被修复

2025-12-11 11:06:00

“一句话解决所有”的豆包AI手机褒贬不一

二手平台价格水涨船高便利带来隐私权限风险商报讯今年最火的行业是什么？无疑就是AI。现在不仅仅是下载AI App

2025-12-11 11:46:00

头条订阅服务

AI视频进入有声时代！谷歌发布视频生成音频技术，效果惊艳网友！