• 我的订阅
  • 科技

语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员

类别:科技 发布时间:2024-07-25 09:34:00 来源:新智元

语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员

【新智元导读】继去年初的第一代VALL-E模型之后,微软最近又上新了VALL-E 2模型,标志着第一个在合成语音稳健性、相似度、自然程度等方面达到人类水平的文本到语音模型。

最近,微软发布了零样本的文本到语音(TTS)模型VALLE-2,首次实现了与人类同等的水平,可以说是TTS领域里程碑式的进展。

语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员

论文地址:https://arxiv.org/pdf/2406.05370

随着近年来深度学习的快速进步,用录音室环境下的干净单人语音训练模型,已经可以达到人类同等水平的质量,但零样本TTS依旧是一个有挑战性的问题。

「零样本」意味着推理过程中,模型只能参照一段简短的陌生语音样本,用相同的声音说出文本内容,就像一个能即时模仿的口技大师。

听到这里,不知道你会不会突然警觉——有这种能力的模型就是Deepfake的最佳工具!

令人欣慰的是,MSRA考虑到了这一点,他们目前只将VALL-E系列作为研究项目,并没有纳入产品或扩大使用范围的计划。

虽然VALL-E 2有很强的零样本学习能力可以像配音员一样模仿声音,但相似度和自然度取决于语音prompt的长度和质量、背景噪音等因素。

在项目页面和论文中,作者都进行了道德声明:如果要将VALL-E推广到真实世界的应用中,至少需要一个强大的合成语音检测模型,并设计一套授权机制,确保模型在合成语音前已经得到了声音所有者的批准。

对于微软这种只发论文不发产品的做法,有些网友表示非常失望。

语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员

毕竟最近各种翻车的产品让我们深深明白,只看demo完全不可靠,没法自己试用=没有。

语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员

但Reddit上有人揣测:微软只是不想当「第一个吃螃蟹的人」,不发模型是担心可能的带来的批评和负面舆论。

一旦有了能将VALL-E转化为产品的方法,或者市场上杀出其他竞品,难道还担心微软有钱不赚吗?

语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员

语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员

的确如网友所说,从项目页面目前放出的demo来看,很难判断VALL-E的真实水平。

语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员

项目页面:https://www.microsoft.com/en-us/research/project/vall-e-x/vall-e-2/

共5条文本都是不超过10个单词的英文短句,语音prompt的人声音色都非常相近,英语口音也不够多样化。

虽然demo不多,但能隐隐感受到,模型对英美口音的模仿非常炉火纯青,但如果prompt略带印度或者苏格兰口音,就很难达到以假乱真的程度。

方法

模型前身VALL-E发布于2023年初,已经是TTS在零样本方面的重大突破。VALL-E能够用3秒的录音合成个性化语音,同时保留说话者的声音、情绪和声学环境。

然而VALL-E存在两方面的关键限制:

1)稳定性:推理过程中使用的随机采样(random sampling)可能会导致输出不稳定,而top-p值较小的核采样可能会导致无限循环问题。虽然可以通过多次采样和后续排序来缓解,但会增加计算成本。

2)效率:VALL-E的自回归架构绑定了与现成的音频编解码器模型相同的高帧率,且无法调整,导致推理速度较慢。

虽然已经有多项研究用于改进VALL-E的这些问题,但往往会使模型的整体架构复杂化,而且增加了扩展数据规模的负担。

基于这些之前的工作,VALL-E 2包含两方面的关键创新:重复感知采样(repetition aware sampling)和分组代码建模(grouped code modeling)。

重复感知采样是对VALL-E中随机采样的改进,能够自适应地采用随机采样或者核采样(nucleus sampling),选择的依据是曾经的token重复,因此有效缓解了VALL-E的无限循环问题,大大增强解码稳定性。

语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员

重复感知采样的算法描述

分组代码建模则是将编解码器代码划分为多个组,自回归时每组在单个帧上建模。不仅减少了序列长度、加速推理,还通过缓解长上下文建模问题来提高性能。

值得注意的是,VALL-E 2仅需要简单的语音-转录文本数据进行训练,不需要额外的复杂数据,大大简化了数据的收集、处理流程,并提高了潜在的可扩展性。

具体来说,对于数据集中每条语音-文本数据,分别用音频编解码器编码器(audio codec encoder)和文本分词器将其表示为编解码器代码=[0,1,…,(−1)]和文本序列=[0,1,…,(−1)],用于自回归(AR)和非自回归(NAR)模型的训练。

语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员

AR和NAR模型都采用Transformer架构,后续的评估实验设计了4种变体进行对比。它们共享相同的NAR模型,但AR模型的组大小分别为1、2、4、8。

推理过程也同样是AR和NAR模型的结合。以文本序列和代码提示<′,0为条件生成目标代码≥′,0的第一代码序列,再用自回归的方式生成每组的目标代码。

语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员

给定≥′,0序列后,就可以使用文本条件和声学条件<′推断NAR模型,以生成剩余的目标代码序列≥′,≥1。

模型训练使用了Libriheavy语料库中的数据,包含7000个人朗读英语有声书的5万小时语音。文本和语音的分词分别使用BPE和开源的预训练模型EnCodec。

此外,也利用了开源的预训练模型Vocos作为语音生成的音频解码器。

评估

为了验证模型的语音合成效果是否能达到人类同等水平,评估采用了SMOS和CMOS两个主观指标,并使用真实的人类语音作为ground truth。

SMOS(Similarity Mean Opinion Score)用于评估语音与原始提示的相似度,评分范围为1~5,增量为0.5分。

CMOS(Comparative Mean Opinion Score)用于评估合成语音与给定参考语音的比较自然程度,标度范围为-3~3,增量为1。

语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员

根据表2结果,VALL-E 2的主观评分不仅超过了第一代的VALL-E,甚至比人类真实语音有更完美的表现。

此外,论文也使用了SIM、WER和DNSMOS等客观指标来评估合成语音的相似度、鲁棒性和整体感知质量。

语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员

在这3个客观指标上,无论VALL-E 2的组大小如何设置,相比VALL-E都有全方位的提升,WER和DNSMOS分数也优于真实人类语音,但SIM分数还存在一定差距。

此外,从表3结果也能发现,VALL-E 2的AR模型组大小为2时,可以取得最优效果。

在VCTK数据集上的测评也可以得到相似的结论。当prompt长度增加时,分组代码建模方法可以减少序列长度,缓解Transformer架构中不正确注意力机制导致的生成错误,从而在WER分数上得到提升。

语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员

作者简介

本文第一作者陈三元是哈尔滨工业大学和微软亚洲研究院的联合培养博士,他从2020年开始担任MSRA自然语言计算组的实习研究员,研究兴趣主要是用于语音和音频处理的预训练语言模型。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-25 12:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

微软正在涉足配音工具领域
...消息,根据美国商标和专利局(USPTO)近日公示的清单,微软获得了一项新的技术专利,表明微软正在涉足配音工具领域,目的是彻底改变用户配音的方式。微软提供了一种不同的配音解决方
2024-02-09 05:07:00
OpenAI首席技术官:没将产品优先程度置于安全之前,超级对齐团队解散不影响
...成协议,联邦贸易委员会(FTC)将带头审查OpenAI,并针对微软向OpenAI进行投资、以及与其他AI公司达成协议的行为进行调查
2024-07-13 14:46:00
“百模大战”,国产 GPT 大全
...交互全程的人工智能交互主体基础框架,又叫小冰框架。微软小冰是微软 Bing(“必应”)搜索中国团队发布的一款智能聊天机器人,集成了微软在大数据、自然语义分析、机器学习和深度神
2023-05-07 20:34:00
本周硅谷发生了什么?|OpenAI推出5项更新;微软组建新的AI团队;Googe发布文生视频模型Lumiere
...Qwen-VL,这两个模型在多项图文多模态标准测试中获得了堪比Gemini Ultra和GPT-4V的水准。第四批国产AI大模型备案获批
2024-01-29 09:34:00
AI重磅!“它太危险了,不能公开发布”
...消息13日援引美国趣味科学网站7月10日报道,科学家称,微软公司开发的新型人工智能(AI)语音生成器“达到了与人类相当的水平……但它太危险了
2024-07-15 09:37:00
...音(北京)文化传媒有限公司将其录制的有声书音频交给微软(中国)有限公司,微软未经其授权,将殷女士的声音进行了AI化处理,并由平台运营商、供应商等出售给“魔音工坊”的开发者小问
2023-12-13 04:05:00
出门问问内测探索大模型“序列猴子”,为个人与企业打造专属CoPilot
...分别为AI写作平台“奇妙文”、AI绘画平台“言之画”、AI配音平台“魔音工坊”、数字人视频与直播平台“奇妙元”。自研大模型「序列猴子」,助力AGI“降临”出门问问大模型“序列
2023-04-20 18:00:00
“寡姐”斯嘉丽·约翰逊怒怼OpenAI山寨其声音:连我的朋友都分辨不出来
...式的声音,并详细介绍了语音选择的创作流程,强调所有配音均来自专业演员。此前,OpenAI推出新旗舰模型GPT-4o,该模型在保留了之前的五种语音模式的基础上,大大提升了图像和
2024-05-21 18:11:00
斯嘉丽·约翰逊不想当GPT里的那个“她”:拒绝声音授权,已发律师函
...姆·奥特曼(Sam Altman)找到她,询问她是否愿意为ChatGPT配音,去安慰用户,弥合AI与人类之间巨大的差异所带来的不适感
2024-05-21 12:56:00
更多关于科技的资讯:
Airbnb店铺该如何推广
Airbnb是一个全球性的在线短租平台,世界各地的房东都可以在这将空闲房产出租给来自全球的旅行者。今天带大家了解一些策略和方法
2025-04-03 11:18:00
‌家家悦和瑞广场店焕新升级盛大开业 与您共赴美好生活
4月3日,家家悦和瑞广场店改造全新面貌盛大开业。家家悦和瑞广场店是继环宇城升级改造的第二家门店。作为一家社区综超门店,和瑞广场店经营面积1000余平
2025-04-03 11:20:00
当减肥遇上黑科技 年轻人找到了“快乐减肥”的秘诀
在快节奏的现代生活中,体重管理已不再是个人选择,而是关乎全民健康素养的公共议题。而传统减肥方式始终无法突破人性的桎梏。健身房里的跑步机沦为晾衣架
2025-04-03 11:21:00
“与中国同行就是与机遇同行,相信中国就是相信明天,投资中国就是投资未来”。3月28日,国家主席习近平在北京人民大会堂会见国际工商界代表时
2025-04-03 11:21:00
近年来,随着经济复苏进程加快,市场需求也愈加多元,金融机构紧跟政策引导,不断通过创新活动与产品,扩内需,助惠民,推动消费提质扩容
2025-04-03 11:23:00
君乐宝:深耕益生菌研发,领航乳品创新之路
在竞争激烈的乳品市场中,君乐宝乳业集团凭借其深厚的益生菌研发实力,不仅赢得消费者的广泛认可,更在行业内树立起科研创新的标杆
2025-04-03 11:26:00
这种看似自由的生活态度:正在杀死你的“活人感”
周末醒来的早晨,手机弹出了健身教练的课程邀请。犹豫一下,想起要找装备换衣服就觉得好麻烦,于是顺手划掉通知,想着“算了算了
2025-04-03 11:41:00
腾讯稳居全球移动发行商收入榜第一!字节跳动排第二
快科技4月3日消息,近日,Sensor Tower发布了《2024年全球移动发行商收入TOP50》榜单。据了解,在2024年
2025-04-03 11:41:00
吞吐量30倍提升!NVIDIA秀Blackwell性能:打破MLPerf记录居第一
快科技4月3日消息,NVIDIA在官网表示,在最新的MLPerf V5.0基准测试中,NVIDIA的Blackwell平台取得了令人瞩目的成绩
2025-04-03 11:41:00
20多万的长城灵魂摩托供不应求 二手平台有人加价5千元转订
快科技4月3日消息,因为长城灵魂摩托采用限量发售的形式,基本上每次新一批车源都很快被抢购一空,这也导致不少车主无法成功抢到车
2025-04-03 11:41:00
山西怀仁3.6级地震:震源深度15千米
快科技4月3日消息,中国地震台网正式测定:04月03日09时53分在山西朔州市怀仁市(北纬39.81度,东经113.16度)发生3
2025-04-03 11:41:00
全球唯一!劳斯莱斯幻影定制版亮相:25万针绣出\
快科技4月3日消息,劳斯莱斯发布了幻影“春日花见”定制版车型官图。这款车型由一位日本客户委托定制,灵感源自日本传统“花见”习俗
2025-04-03 11:41:00
6999元起 华为智慧屏S6 Pro开售:支持灵犀指向遥控
快科技4月3日消息,华为智慧屏S6 Pro正式开售,号称为全家人的“巨幕手机”,售价6999元起。据悉,华为智慧屏S6 Pro配备了灵犀指向遥控器
2025-04-03 11:41:00
正益信息:用专业赋能,领航行业数字化变革
在数字化建设的浪潮中,众多行业对网络基础设施的需求愈发迫切。广州市正益信息技术有限公司凭借过硬的技术实力与丰富的行业经验
2025-04-03 11:46:00
廊坊:以旧换新加力扩围 “催旺”家电数码消费市场
河北新闻网讯(记者刘杰)“家电以旧换新,政府补贴20%,单件最高补贴2000元……”3月30日,在廊坊市区明珠集团电器卖场举办的2025春季品质家电焕新家装节现场
2025-04-03 11:54:00