• 我的订阅
  • 科技

Meta推出“AI翻译官”!能翻译和转录近百种语言,已开源

类别:科技 发布时间:2023-08-24 11:03:00 来源:智东西
Meta推出“AI翻译官”!能翻译和转录近百种语言,已开源

智东西

智东西8月23日报道,昨晚,Meta官宣AI大模型SeamlessM4T,该模型可翻译和转录近百种语言。

SeamlessM4T能实现近百种语言的自动语音识别、语音到文本翻译,以及近百种输入语言和35种输出语言的语音翻译、文本转语音翻译。

构建通用语言翻译器有一定挑战性,因为现有的语音到语音、语音到文本的系统都只涵盖了全球现存语言的一小部分,SeamlessM4T扩大了语言覆盖的范围,并且是一个可以完成多种任务的统一多语言模型。

秉持其一贯的开源策略,Meta在开源协议CC BY-NC 4.0下公开发布了SeamlessM4T,开发人员可以在这个模型的基础上进行开发。同时,Meta还发布了SeamlessAlign的数据集,其博客提到这也是迄今为止最大的开放多模态翻译数据集,覆盖挖掘的语音和文本对齐总计达270000小时。

SeamlessM4T Demo体验网址:https://seamless.metademolab.com/

模型代码下载地址:https://github.com/facebookresearch/seamless_communication

一、录音、选择、翻译一气呵成,背景噪声干扰、说话人角色区分

Meta的博客中提到一般而言,现有的语音到语音翻译过程,会被划分为多个阶段,然后不同阶段会有对应的单独系统,很少能有统一的系统去完成多个任务。

SeamlessM4T的出现就解决了语音到语音翻译任务对单独系统的依赖的难题。

打开SeamlessM4T的Demo体验网站,用户点击下方的“START RECORDING”按钮就可以开始录音,录制完成进入第二步,“SELECT TRANSLATION LANGUAGE”选择需要翻译的语言种类,最后点击下方的“TRANSLATE”就会出现翻译的文本、语音两种结果。

Meta推出“AI翻译官”!能翻译和转录近百种语言,已开源

在Meta的测试中,SeamlessM4T在保持高资源语言性能的同时,提高了中低资源语言的翻译性能,并且在近100种语言中实现了自动语音识别、语音转文本、语音转语音、文本转语音和文本转语音等多任务支持。

为了在不依赖基于文本的指标情况下更准确地评估SeamlessM4T,研究人员将无文本指标扩展到可以进行跨语音和文本单元评估的BLASER 2.0。进行鲁棒性测试时,与当前其它模型相比,SeamlessM4T在语音转文本任务中背景有噪声和出现多个说话人时的表现更好,平均分分别提高了37%和48%。

从基本的数据来看,SeamlessM4T的模型需要大量高质量端到端数据,仅仅靠人工转录和翻译的语音无法满足近100种语言语音翻译的需求。因此,Meta为200种语言构建了大规模多语言和模态文本嵌入空间SONAR,能快速搜索具有相似性的多种语言。

同时,通过挖掘公开可用的网络数据存储库中的数百亿个句子和400玩小时的语音数据,Meta还构建了语料库SeamlessAlign,能自动将超过443000小时的语音与文本进行对齐,并创建了约29000小时的语音到语音对齐。

同时,SeamlessM4T的构建还借鉴了Meta此前的技术积累,包括去年发布的文本到文本机器翻译模型NLLB、发规模多语言翻译数据集SpeechMatrix,以及今年的跨1100种语言的语音识别技术Massively Multilingual Speech等,基于大量先前的研究成果,才使得SeamlessM4T能仅用单一模型就实现多语言和多任务的翻译功能。

二、适配多任务模型架构、语音文本编码器

为了构建统一模型,Meta的研究人员在工具包、模型架构、编码器等上都进行了适配。

Meta重新设计了序列建模工具包fairseq,并使用多任务UnitY模型架构,这一新架构能实现自动语音识别、文本到文本、文本到语音、语音到文本和语音到语音翻译。

Meta推出“AI翻译官”!能翻译和转录近百种语言,已开源

处理语音的过程中,自监督语音编码器w2v-BERT 2.0相比于w2v-BERT版本,训练稳定性和生成质量有了提升,编码器可以将获取到的音频信号分解为更小的部分构建内部表示。

文本编码器采用的是文本到文本翻译模型NLLB,它经过训练可以理解近100种语言的文本并生成对翻译有用的信息。

然后到了生成文本的步骤,通过多任务训练,Meta利用NLLB模型,通过标记级知识蒸馏来指导语音到文本翻译模型,就可以将这一编码器应用于自动语音识别、多语言翻译任务。例如,某人用法语说“bonjour(你好)”,可以将其翻译为斯瓦西里语的文本“habari”。

翻译内容的语音输出,Meta基于UnitY模型中的文本到单元(T2U)组件,这一组件可以根据文本输出生成离散语音单元,并在UnityY微调之前根据自动语音识别数据进行预训练。然后使用多语言HiFi-GAN单元声码器将这些离散单元转换为音频波形。

结语:语言翻译仍需清除有害内容输出

就Meta的测试结果来看,SeamlessM4T相比于其他系统的翻译、转录效果更好,并且覆盖的语言范围也更为广泛。

值得一提的是,与所有生成式AI存在的风险类似,翻译过程的准确性也十分重要,这一AI模型可能会错误转录用户说的话,或转录有害信息等。

因此,Meta还将高度多语言的有害性内容分类器扩展到语音,以帮助识别语音输入和输出中的有害内容。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-08-24 15:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

重磅!“国奖”放榜:十年来AI 领域首个国奖一等奖花落科大讯飞
...的新品类,带上一个翻译机就像带上一个会85种语言的AI翻译官;在会议、办公等场景,讯飞听见系列产品能够实时记录和翻译会议录音,目前服务遍及全球50多个国家和地区,支持了超过4
2024-06-26 09:15:00
这4个语音翻译成文字的方法,简直太好用了
...音转文字软件来提高工作效率和生活便利。方法一、全能翻译官 全能翻译官是一款多语言翻译工具,可以将语音转化为文字,并将文字翻译成多种语言。该软件支持多种语言的翻译功能,如英语
2023-03-07 11:09:00
科大讯飞多语种技术,提供超1亿分钟公益服务
...用讯飞听见产品沟通近几年,科大讯飞在多语种智能语音语言技术系统性创新中不断取得突破,有力支撑了讯飞翻译机、讯飞智能录音笔、讯飞听见等智能软硬件产品不断创新。这些AI产品也一直
2024-05-08 15:08:00
小语种国家如何拥抱AI 全球专家论道WAIC
...新闻讯 由于数字化语料稀缺,全球主流大模型对低资源语言的支持严重不足,小语种国家面临AI边缘化风险。如何弥合这一数字鸿沟,7月28日,作为2025世界人工智能大会(WAIC)
2025-07-29 00:22:00
Meta发布 AI 模型SeamlessM4T,可转录和翻译近100种语言|钛快讯
...擎SeamlessM4T,可以更轻松地跨文本语音翻译和转录近100种语言。同时,Meta还公布了新的开源翻译数据集 SeamlessAlign
2023-08-23 12:01:00
融资1600万美元,这家法国AI创企推新语音转录引擎,支持100种语言
...音频智能创企Gladia成功融资1600万美元,并推出了一个多语言实时音频转录和分析引擎。该公司计划利用这笔资金推进研发
2024-10-17 09:45:00
国家科学技术进步一等奖,为何给了这家AI国家队
...破据了解,多语种智能语音技术对于支撑人机交互、人类语言互通及国家安全等需求具有重大战略意义,具有十分广阔的产业前景,是当前国际科技竞争核心焦点之一。为解决语音识别研究中最具挑
2024-06-25 09:30:00
AI语音迎来「特斯拉时刻」,一条工作流「吃掉」全球百亿市场
厨房里的语音助手精准响应指令,虚拟偶像跨七国语言无缝切换直播,短剧出海仅需一次点击即可生成多语种配音……这些曾被行业寄予厚望的AI语音场景,长期受限于技术瓶颈,沦为“实验室里的半
2025-04-08 19:25:00
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...新智元导读】Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语
2024-11-23 09:43:00
更多关于科技的资讯:
闽企自主研发的人形机器人在厦完成测试
“福智”机器人在思明未来科技园进行测试。(本组图/厦门日报记者 林铭鸿 摄)“福智”机器人将进入更多的服务场景。厦门网讯(厦门日报记者 林健华)2月6日上午
2026-02-08 08:26:00
影像记录|共享赋能,平乡童车驶上产业升级路
1月13日,邢台市斗途儿童玩具有限公司工人在赶制出口东南亚的电动玩具车。1月13日,在位于平乡县的邢台泰洲智造产业园,检测中心工作人员对河北博艺玩具有限公司送检的童车开展驱动系统
2026-02-08 08:35:00
近日,工业和信息化部公布2025年度中国消费名品名单,全国共276个品牌入选。其中,浙江29个品牌入选,分别为企业品牌18个
2026-02-08 07:47:00
近日,市场监管总局和国家网信办联合发布《网络交易平台规则监督管理办法》(以下简称《办法》),明确禁止平台利用大数据“杀熟”
2026-02-08 00:15:00
潮起章丘,一城所向:章丘世茂广场盛大开业,开启城市商业新主场
鲁网2月7日讯2026年2月6日,中国济南——由章丘控股集团与世茂集团商业地产商娱公司(以下简称世茂商娱)联袂打造的章丘世茂广场盛大开业
2026-02-07 16:32:00
“人机协同”新模式进楼宇,顺丰同城×顺丰速运机器人配送落地南昌双子塔
近日,顺丰同城与顺丰速运携手推出楼宇机器人末端配送新业务,于2月5日率先在江西南昌标志性建筑之一南昌双子塔投入运营。双方聚焦商务楼宇等高层建筑的末端配送难点
2026-02-07 16:48:00
中国科大建立磁各向异性的普适理论
大皖新闻讯 2月7日,大皖新闻记者从中国科学技术大学获悉,该校牛谦教授与高阳教授团队在磁各向异性理论研究中取得突破。研究团队基于自旋轨道耦合的微扰展开以及自旋群的群表示
2026-02-07 12:48:00
厦门网讯(厦门日报记者 应洁)马年新春将至,集美区年味渐浓。2月6日,由集美区商务局主办的“2026集美欢乐购”新春消费券正式“开抢”
2026-02-07 08:49:00
老人也能轻松操作!海尔智家APP“AI语音”让服务零门槛
智能家电功能日益丰富,售后环节的复杂化却成了很多用户的“数字门槛”。在智慧家庭战略指导下,海尔智家APP推出“AI语音”功能
2026-02-07 10:07:00
海尔智家APP“3D家庭视图”将操作效率提升60%
当智能家电数量不断增加,如何高效、直观地管理成了很多用户的“甜蜜负担”。海尔智家APP在智慧家庭战略指引下,通过数字孪生技术打造“3D家庭视图”功能
2026-02-07 10:09:00
从套购到套系,海尔智家靠近用户实现双第一
1月29日,中国家用电器服务维修协会发布《2026年家电服务业及新兴市场发展趋势预测》。报告指出,全屋智能和AI技术正成为推动市场增长的重要力量
2026-02-07 10:10:00
近日,中国科学技术大学的潘建伟院士团队在量子网络领域取得重要突破,首次构建出可扩展量子中继的基本模块,并在此基础上首次将设备无关量子密钥分发的传输距离突破百公里
2026-02-07 10:52:00
大皖新闻讯 近年来,安徽首创金融支持科创企业“共同成长计划”和“贷投批量联动”模式,科技型企业贷款4年连跨7个千亿台阶
2026-02-07 08:44:00
今天,“浙江第一摩天轮”——“天目之心”将在临安天目未来谷正式开转。“天目之心”摩天轮高131.4米,寓意“一生一世”的浪漫
2026-02-07 07:28:00