我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

Meta发布生成式AI语音模型Voicebox，精通六种语言，支持多种语音功能 | 最前线

类别：科技发布时间：2023-06-19 17:10:00 来源：36氪

作者 | 周愚

编辑 | 邓咏仪

美国时间6月16日，Meta正式发布语音生成模型Voicebox。据官网介绍，通过非自回归“流匹配”（Flow Matching）技术，研究人员无需手动标记不同数据，即可利用长达5万小时的语言和有声书文本训练Voicebox。Voicebox生成语音的速度，可到达目前最先进的自回归模型的约20倍。

不同于过去的语音AI模型一般只有单一用途，Voicebox基于同一通用模型，即可实现基于文本的语音生成、语音编辑和降噪、跨语言转换、多风格语言采样等功能。

在英语文本到文字的转换过程中，Voicebox的平均单词错误率与音频相似度(相较于真实语音）分别为1.9%和0.681，而目前最先进的英语模型Vall-E，则分别为5.9%和0.580。

此外，Voicebox还支持合成包括英语、法语、西班牙语、德语、波兰语和葡萄牙语等六种语言的语音。在跨语言转换的表现上，Voicebox同样优于该领域领先的YourTTS，平均单词错误率从10.9%降低到了5.2%，音频相似度则从0.335提高到了0.481。

Meta发布生成式AI语音模型Voicebox，精通六种语言，支持多种语音功能 | 最前线

Voicebox与其他语音生成模型单词错误率对比。来源：Meta

Voicebox与其他语音生成模型音频相似度对比。来源：Meta

在训练过程中，Voicebox会得到一个音频样本和相应的文本，然后部分音频将被屏蔽，该模型需要根据前后音频和给定的文本，生成被屏蔽的音频片段。

经过这种训练的模型可以直接或在少量微调后，适用于许多任务。以降噪和语音错误修改为例，Voicebox在实现这两项看似不同的功能时，均是首先屏蔽出现噪音或错误的部分，然后基于前后已有的音频和原文本或修改后的文本，重新生成该部分语音。

这也是Meta研发Voicebox的主要目标。在一篇披露Voicebox技术细节的论文中，Meta研究人员写道：“研究目标是建立一个单一模型，通过上下文学习来执行多种基于文本的语音生成任务。”

Voicebox通过前后音频学习生成语音。来源：Meta

Voicebox并非是为特定应用程序训练的生成模型，因此还可以执行许多未经过训练的其他任务。

输入长度仅为两秒的音频样本，Voicebox就可以获得相应的音频样式。而后，使用者只需输入文本就可以生成语音。Meta表示，这项功能可为语言功能障碍人士提供语音，或为NPC和虚拟助手定制声音。

同时，Voicebox跨语言转换的功能也可以帮助不同语言的人们进行顺畅的交流。基于六种语言的语音样本和给出的文本，使用者在Voicebox的帮助下便可以轻松生成目标语言的语音。

Voicebox还可以将其生成的语音用于模型训练。Meta的研究结果表明，与真实语音训练出的模型相比，使用Voicebox生成的语音训练出的语音识别模型表现几乎一样好。

Voicebox与其他主流语音生成模型功能对比。来源：Meta

尽管Meta研究团队已经发布了披露技术细节的相关论文，但Meta并没有公开Voicebox的模型或代码，认为“需要在开放和责任之间找到适当的平衡”。

Meta在社交平台上公开表示：“与其他强大的人工智能创新技术一样，我们认为这项技术也可能会被滥用，造成意外伤害。”

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2023-06-19 19:45:03

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于语音,生成,模型,多种,语言,功能的资讯：

抢先OpenAI！Hume AI发布第二代情感智能AI，支持

...为全球首个具有情商的对话式AI。EVI能够通过分析用户的语音，如口音、语气、语调、拟声词、节奏和停顿等，来理解用户的情绪和心理状态

2024-09-21 09:47:00

Meta推出“AI翻译官”！能翻译和转录近百种语言，已开源

...译和转录近百种语言。SeamlessM4T能实现近百种语言的自动语音识别、语音到文本翻译，以及近百种输入语言和35种输出语言的语音翻译、文本转语音翻译。构建通用语言翻译器有一

2023-08-24 11:03:00

vivo发布自研大模型，为用户和开发者带来诸多惊喜

...圆表示，随着大模型技术日益成熟，vivo在语言、图像、语音、多模态等全模态的AI技术上逐步升级为大模型能力，正从传统的AI技术时代迈向大模型AI技术时代。vivoAI算法技术

2024-10-14 01:53:00

科大讯飞大模型新升级：20秒制作PPT，拟人语音能力超越Ch

...发布新升级的讯飞认知大模型星火V3.5，并发布了自研的语音大模型，以及星火开源大模型——星火开源-13B。过去一年，科大讯飞的重点都在大模型方向上，临近岁末放出大量更新，某种

2024-01-31 07:32:00

“百模大战”，国产 GPT 大全

...统一表达，以图生音，以音生图，将开拓AI在视频配音、语音播报、标题摘要、海报创作等更多元场景的应用。现已开启内测APP。盘古华为盘古大模型可解决传统AI作坊式开发模式下不能解

2023-05-07 20:34:00

马斯克夺下AI.com域名；OpenAI提交GPT-5商标申

...助手们”也迎来一场升级，甚至“改朝换代”：谷歌宣布语音助手Google Assistant将引入大模型；而微软则悄然放出消息

2023-08-06 22:54:00

融资1600万美元，这家法国AI创企推新语音转录引擎，支持1

...。该新产品克服了语言理解和实时数据处理等挑战，实时语音转文本引擎的延迟低于300毫秒。本轮融资由欧洲风投机构XAnge领投

2024-10-17 09:45:00

AIGC工具测评：生成式AI的产品表现如何

...值得一提的是，GPT-4引入了“多模态”功能，支持图像和语音输入，甚至可以输出图片，大大拓宽了其应用范围。界面体验ChatGPT-4的用户界面呈现了现代化和直观的设计风格，其

2024-03-25 13:00:00

终于拿到内测！豆包-PixelDance真是字节视频生成大杀

...大模型，同时给之前已有的通用语言模型、文生图模型、语音模型来了一波大升级。这些模型共同构建起了火山引擎的「豆包全模态大模型家族」。家族新秀：豆包视频生成模型 PixelDan

2024-09-30 09:51:00

更多关于科技的资讯：

新消费｜今年“双11”，福州年轻人主打一个“人间清醒”

开栏语：消费，并不只是“买买买”，它展示个人选择，反映市场动向，也揭示社会风尚。即日起，掌上福州客户端开设《新消费》专栏

2025-11-11 21:29:00

奢游国际再获殊荣：斐济旅游局颁授“最佳奢华产品合作旅行社”

近日，奢游国际荣膺斐济旅游局颁发的“最佳奢华产品合作旅行社”奖项，这是继马尔代夫旅游局、大溪地旅游局后，我们斩获第三个来自官方海岛旅游局的权威肯定

2025-11-11 13:49:00

大赛赋能破茧成蝶！朗威黄坤分享企业跨越式发展成长故事

鲁网11月11日讯（记者李晓晨）11月10日，驻济高校大学生乡村振兴创新创业大赛暨“农商银行杯”商河县第十届青年创新创业大赛新闻发布会举行

2025-11-11 13:54:00

升级智能设备优化操作流程快递业多举措迎战“双十一”

厦门网讯（厦门日报记者许晓婷王玉婷通讯员林玮）昨日，记者从市邮政管理局获悉，10月20日至11月9日，我市揽收快件4369万件

2025-11-11 08:38:00

中国科大在2025年国际基因工程机器大赛（iGEM）中荣获金

大皖新闻讯近日，国际基因工程机器大赛（iGEM）在法国巴黎落下帷幕。本届大赛吸引了来自全球多个国家和地区的400余支队伍参赛

2025-11-11 11:38:00

烟台联通成功举办“智联万物制造未来”高质量发展主题会议

胶东在线11月11日讯为深入推进制造业数字化转型，赋能区域经济高质量发展，在烟台市工业和信息化局大力支持下，近日，由烟台联通主办的“智联万物制造未来”高质量发展主题会议顺利召开

2025-11-11 13:29:00

知名厦企广发“英雄帖” 百支科研团队“打擂台”

厦门网讯（厦门日报记者林露虹）“平时我们更多是在实验室做科研，这次比赛让我们和产业界有了深入交流，对我们的成长很有帮助

2025-11-11 08:38:00

千里姻缘一线牵：米连用户从线上相识到终成眷属

去年五月，25岁的万森在伊对平台上偶然认识了26岁的陈珊，惊讶地发现两人竟然是同乡，他们的村子相距仅60公里。更令人称奇的是

2025-11-11 08:47:00

企创云课堂直播课预告丨GaN功率器件与功率集成电路：赋能下一

氮化镓（GaN）功率器件正成为推动能源电子系统高效化、小型化、智能化的核心技术，引领电力电子从“硅时代”迈向“宽禁带时代”

2025-11-11 08:47:00

京津冀机器人产业链配套需求与供给能力清单发布

京津冀机器人产业链配套需求与供给能力清单发布需求聚集产业 “邻居”成为“伙伴”河北日报讯（记者米彦泽）作为2025京津冀产业链供应链对接活动的系列活动之一

2025-11-11 09:13:00

2025 Wallpaper*中文版设计大奖于深圳湾文化广

（2025 年 11 月 3 日，深圳）第五届Wallpaper*中文版设计大奖在湾区全新文化地标——深圳湾文化广场圆满落幕

2025-11-11 09:17:00

“链”动先“机”，济南锚定这个“万亿级”|链上济南项新行

编者按：“十五五”规划建议中提出，提升产业链自主可控水平，强化产业基础再造和重大技术装备攻关，滚动实施制造业重点产业链高质量发展行动

2025-11-11 09:39:00

签约成交966套房源、销售额11.93亿元！2025廊坊秋季

河北新闻网讯（曾儒奇）房产主播轮番上阵，数十场“直播看房”实时开讲；线上专门设立金融服务窗口，为购房者提供信贷全流程指导

2025-11-11 10:01:00

金融机构“断舍离” App掀起“关停潮”

日常活跃度不高、功能相对单一，维护和优化更新成本却高昂——金融机构“断舍离” App掀起“关停潮”□南京日报/紫金山新闻记者曹丽珍买理财

2025-11-11 08:02:00

艾拓生命“全自动液态悬浮芯片检测仪”获批

艾拓生命“全自动液态悬浮芯片检测仪”获批宁企“芯”突破，检测精度高艾拓生命“全自动液态悬浮芯片检测仪”。企业供图南报网讯（通讯员江高轩记者张希）近日

2025-11-11 08:03:00

头条订阅服务

Meta发布生成式AI语音模型Voicebox，精通六种语言，支持多种语音功能 | 最前线