• 我的订阅
  • 科技

Meta发布生成式AI语音模型Voicebox,精通六种语言,支持多种语音功能 | 最前线

类别:科技 发布时间:2023-06-19 17:10:00 来源:36氪

作者 | 周愚

编辑 | 邓咏仪

美国时间6月16日,Meta正式发布语音生成模型Voicebox。据官网介绍,通过非自回归“流匹配”(Flow Matching)技术,研究人员无需手动标记不同数据,即可利用长达5万小时的语言和有声书文本训练Voicebox。Voicebox生成语音的速度,可到达目前最先进的自回归模型的约20倍。

不同于过去的语音AI模型一般只有单一用途,Voicebox基于同一通用模型,即可实现基于文本的语音生成、语音编辑和降噪、跨语言转换、多风格语言采样等功能。

在英语文本到文字的转换过程中,Voicebox的平均单词错误率与音频相似度(相较于真实语音)分别为1.9%和0.681,而目前最先进的英语模型Vall-E,则分别为5.9%和0.580。

此外,Voicebox还支持合成包括英语、法语、西班牙语、德语、波兰语和葡萄牙语等六种语言的语音。在跨语言转换的表现上,Voicebox同样优于该领域领先的YourTTS,平均单词错误率从10.9%降低到了5.2%,音频相似度则从0.335提高到了0.481。

Meta发布生成式AI语音模型Voicebox,精通六种语言,支持多种语音功能 | 最前线

Voicebox与其他语音生成模型单词错误率对比。来源:Meta

Meta发布生成式AI语音模型Voicebox,精通六种语言,支持多种语音功能 | 最前线

Voicebox与其他语音生成模型音频相似度对比。来源:Meta

在训练过程中,Voicebox会得到一个音频样本和相应的文本,然后部分音频将被屏蔽,该模型需要根据前后音频和给定的文本,生成被屏蔽的音频片段。

经过这种训练的模型可以直接或在少量微调后,适用于许多任务。以降噪和语音错误修改为例,Voicebox在实现这两项看似不同的功能时,均是首先屏蔽出现噪音或错误的部分,然后基于前后已有的音频和原文本或修改后的文本,重新生成该部分语音。

这也是Meta研发Voicebox的主要目标。在一篇披露Voicebox技术细节的论文中,Meta研究人员写道:“研究目标是建立一个单一模型,通过上下文学习来执行多种基于文本的语音生成任务。”

Meta发布生成式AI语音模型Voicebox,精通六种语言,支持多种语音功能 | 最前线

Voicebox通过前后音频学习生成语音。来源:Meta

Voicebox并非是为特定应用程序训练的生成模型,因此还可以执行许多未经过训练的其他任务。

输入长度仅为两秒的音频样本,Voicebox就可以获得相应的音频样式。而后,使用者只需输入文本就可以生成语音。Meta表示,这项功能可为语言功能障碍人士提供语音,或为NPC和虚拟助手定制声音。

同时,Voicebox跨语言转换的功能也可以帮助不同语言的人们进行顺畅的交流。基于六种语言的语音样本和给出的文本,使用者在Voicebox的帮助下便可以轻松生成目标语言的语音。

Voicebox还可以将其生成的语音用于模型训练。Meta的研究结果表明,与真实语音训练出的模型相比,使用Voicebox生成的语音训练出的语音识别模型表现几乎一样好。

Meta发布生成式AI语音模型Voicebox,精通六种语言,支持多种语音功能 | 最前线

Voicebox与其他主流语音生成模型功能对比。来源:Meta

尽管Meta研究团队已经发布了披露技术细节的相关论文,但Meta并没有公开Voicebox的模型或代码,认为“需要在开放和责任之间找到适当的平衡”。

Meta在社交平台上公开表示:“与其他强大的人工智能创新技术一样,我们认为这项技术也可能会被滥用,造成意外伤害。”

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-06-19 19:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

抢先OpenAI!Hume AI发布第二代情感智能AI,支持自定义语音,在线可玩
...为全球首个具有情商的对话式AI。EVI能够通过分析用户的语音,如口音、语气、语调、拟声词、节奏和停顿等,来理解用户的情绪和心理状态
2024-09-21 09:47:00
Meta推出“AI翻译官”!能翻译和转录近百种语言,已开源
...译和转录近百种语言。SeamlessM4T能实现近百种语言的自动语音识别、语音到文本翻译,以及近百种输入语言和35种输出语言的语音翻译、文本转语音翻译。构建通用语言翻译器有一
2023-08-24 11:03:00
vivo发布自研大模型,为用户和开发者带来诸多惊喜
...圆表示,随着大模型技术日益成熟,vivo在语言、图像、语音、多模态等全模态的AI技术上逐步升级为大模型能力,正从传统的AI技术时代迈向大模型AI技术时代。vivoAI算法技术
2024-10-14 01:53:00
科大讯飞大模型新升级:20秒制作PPT,拟人语音能力超越ChatGPT|最前线
...发布新升级的讯飞认知大模型星火V3.5,并发布了自研的语音大模型,以及星火开源大模型——星火开源-13B。过去一年,科大讯飞的重点都在大模型方向上,临近岁末放出大量更新,某种
2024-01-31 07:32:00
“百模大战”,国产 GPT 大全
...统一表达,以图生音,以音生图,将开拓AI在视频配音、语音播报、标题摘要、海报创作等更多元场景的应用。现已开启内测APP。盘古华为盘古大模型可解决传统AI作坊式开发模式下不能解
2023-05-07 20:34:00
...助手们”也迎来一场升级,甚至“改朝换代”:谷歌宣布语音助手Google Assistant将引入大模型;而微软则悄然放出消息
2023-08-06 22:54:00
融资1600万美元,这家法国AI创企推新语音转录引擎,支持100种语言
...。该新产品克服了语言理解和实时数据处理等挑战,实时语音转文本引擎的延迟低于300毫秒。本轮融资由欧洲风投机构XAnge领投
2024-10-17 09:45:00
AIGC工具测评:生成式AI的产品表现如何
...值得一提的是,GPT-4引入了“多模态”功能,支持图像和语音输入,甚至可以输出图片,大大拓宽了其应用范围。界面体验ChatGPT-4的用户界面呈现了现代化和直观的设计风格,其
2024-03-25 13:00:00
终于拿到内测!豆包-PixelDance真是字节视频生成大杀器
...大模型,同时给之前已有的通用语言模型、文生图模型、语音模型来了一波大升级。这些模型共同构建起了火山引擎的「豆包全模态大模型家族」。家族新秀:豆包视频生成模型 PixelDan
2024-09-30 09:51:00
更多关于科技的资讯:
见证首次无动力帆船环越南极,飞利浦鹅卵石Pro剃须刀以科技实力硬核护航,净护随行
2025年10月10日,人类首次帆船环航南极之旅于上海白莲泾旅游码头启航。由国家海洋公益形象大使、中国航海科普大使、中国环球航海第一人
2025-10-12 13:35:00
“电力工程号A星”今日出征
2025年10月12日,长光卫星技术股份有限公司在吉林省航天信息产业园举行“电力工程号A星”的出征仪式。公司及合作单位的领导和职工代表参加活动
2025-10-12 11:56:00
刷新多项世界纪录!我国新型单光子探测器量产落地
大皖新闻讯 日前,安徽省量子信息工程技术研究中心发布消息称,我国实现了全球首款四通道超低噪声半导体单光子探测器的量产落地(以下简称“深度制冷单光子探测器”)
2025-10-12 10:52:00
深入实施“人工智能+”行动丨浪潮智能终端“超高清+AI”解锁场景新玩法
漫步浩瀚太空,秒回侏罗纪时代,与科幻机甲同框……济南方特东方神画“九州神韵”的XR拍摄专区,小学生李安安兴奋地“穿越”在异时空中
2025-10-11 10:21:00
近日,据大象新闻报道,疾控卫监部门在一次突击检查中发现,某美容院将普通的高频电灼仪包装为“黄金微针”项目进行推广。这类看似创新的营销话术
2025-10-11 12:36:00
中新经纬10月11日电 (李自曼)近期,多家险企推出1年期的短期重疾险产品。同样保额下,传统重疾险保费动辄千元甚至上万元
2025-10-11 13:55:00
滨州移动织就“数字救援网”,赋能红十字演练通信零死角
鲁网10月11日讯近日,中国红十字应急救援北部协作区综合救援演练在山东省滨州市惠民县黄河三角洲应急消防实训基地拉开帷幕
2025-10-11 14:44:00
看点十足!2025中国移动全球合作伙伴大会变身“AI嘉年华”
当碳基生命的创造力与硅基生命的智慧力深度融合,将迸发出怎样的“AI+”可能?2025年10月10日—10月12日,中国移动全球合作伙伴大会在广州保利世贸博览馆盛大召开
2025-10-11 15:31:00
中国移动董事长杨杰:碳硅共生 合创AI+时代
10月10日至12日,2025中国移动全球合作伙伴大会在广州举行。10月11日上午,中国移动董事长杨杰出席大会主论坛,并发表题为《碳硅共生 合创AI+时代》的主旨演讲
2025-10-11 15:31:00
北京apm多重活动焕活国庆长假新体验,解锁假日新乐趣!
国庆假日期间,北京apm以“沉浸式假日体验”为核心,精心打造多元互动活动、热门IP联名快闪与专属会员福利矩阵,为王府井商圈注入鲜活动能与浓郁假日氛围
2025-10-11 15:41:00
山东乐陵:“老味道”飘出消费新滋味
位于乐陵市经济开发区的山东金鹏德盛斋扒鸡有限公司扒鸡生产车间内,老师傅王强不再像过去那样,紧盯着油炸锅、凭经验调节火力
2025-10-11 16:03:00
近日,张家口农商银行钟楼北小贷中心积极组织开展一场针对光大新天地商城内各商户的专项走访活动。此次活动旨在深入了解商城内各类商户的经营状况
2025-10-11 16:20:00
易生支付:智慧支付护航国庆文旅消费 赋能区域商业活力升级
2025年国庆长假期间,全国文旅消费市场持续呈现旺盛活力。易生支付凭借高并发交易处理、全渠道聚合支付、实时资金清算等核心技术能力
2025-10-11 17:08:00
齐鲁晚报·齐鲁壹点 连宁燕今年以来,威海市商务局围绕促消费开展了一系列卓有成效的工作。紧跟国家、省级、市级各级各类消费提振部署安排
2025-10-11 17:10:00
从精装到智装:百川装饰20年新范式在深圳启航
新范式·新百川·新未来:20周年发布品牌与战略升级近日,行业专家、合作伙伴及媒体代表逾300人齐聚深圳百川装饰集团20周年现场
2025-10-11 17:11:00