• 我的订阅
  • 科技

Meta推出“AI翻译官”!能翻译和转录近百种语言,已开源

类别:科技 发布时间:2023-08-24 11:03:00 来源:智东西
Meta推出“AI翻译官”!能翻译和转录近百种语言,已开源

智东西

智东西8月23日报道,昨晚,Meta官宣AI大模型SeamlessM4T,该模型可翻译和转录近百种语言。

SeamlessM4T能实现近百种语言的自动语音识别、语音到文本翻译,以及近百种输入语言和35种输出语言的语音翻译、文本转语音翻译。

构建通用语言翻译器有一定挑战性,因为现有的语音到语音、语音到文本的系统都只涵盖了全球现存语言的一小部分,SeamlessM4T扩大了语言覆盖的范围,并且是一个可以完成多种任务的统一多语言模型。

秉持其一贯的开源策略,Meta在开源协议CC BY-NC 4.0下公开发布了SeamlessM4T,开发人员可以在这个模型的基础上进行开发。同时,Meta还发布了SeamlessAlign的数据集,其博客提到这也是迄今为止最大的开放多模态翻译数据集,覆盖挖掘的语音和文本对齐总计达270000小时。

SeamlessM4T Demo体验网址:https://seamless.metademolab.com/

模型代码下载地址:https://github.com/facebookresearch/seamless_communication

一、录音、选择、翻译一气呵成,背景噪声干扰、说话人角色区分

Meta的博客中提到一般而言,现有的语音到语音翻译过程,会被划分为多个阶段,然后不同阶段会有对应的单独系统,很少能有统一的系统去完成多个任务。

SeamlessM4T的出现就解决了语音到语音翻译任务对单独系统的依赖的难题。

打开SeamlessM4T的Demo体验网站,用户点击下方的“START RECORDING”按钮就可以开始录音,录制完成进入第二步,“SELECT TRANSLATION LANGUAGE”选择需要翻译的语言种类,最后点击下方的“TRANSLATE”就会出现翻译的文本、语音两种结果。

Meta推出“AI翻译官”!能翻译和转录近百种语言,已开源

在Meta的测试中,SeamlessM4T在保持高资源语言性能的同时,提高了中低资源语言的翻译性能,并且在近100种语言中实现了自动语音识别、语音转文本、语音转语音、文本转语音和文本转语音等多任务支持。

为了在不依赖基于文本的指标情况下更准确地评估SeamlessM4T,研究人员将无文本指标扩展到可以进行跨语音和文本单元评估的BLASER 2.0。进行鲁棒性测试时,与当前其它模型相比,SeamlessM4T在语音转文本任务中背景有噪声和出现多个说话人时的表现更好,平均分分别提高了37%和48%。

从基本的数据来看,SeamlessM4T的模型需要大量高质量端到端数据,仅仅靠人工转录和翻译的语音无法满足近100种语言语音翻译的需求。因此,Meta为200种语言构建了大规模多语言和模态文本嵌入空间SONAR,能快速搜索具有相似性的多种语言。

同时,通过挖掘公开可用的网络数据存储库中的数百亿个句子和400玩小时的语音数据,Meta还构建了语料库SeamlessAlign,能自动将超过443000小时的语音与文本进行对齐,并创建了约29000小时的语音到语音对齐。

同时,SeamlessM4T的构建还借鉴了Meta此前的技术积累,包括去年发布的文本到文本机器翻译模型NLLB、发规模多语言翻译数据集SpeechMatrix,以及今年的跨1100种语言的语音识别技术Massively Multilingual Speech等,基于大量先前的研究成果,才使得SeamlessM4T能仅用单一模型就实现多语言和多任务的翻译功能。

二、适配多任务模型架构、语音文本编码器

为了构建统一模型,Meta的研究人员在工具包、模型架构、编码器等上都进行了适配。

Meta重新设计了序列建模工具包fairseq,并使用多任务UnitY模型架构,这一新架构能实现自动语音识别、文本到文本、文本到语音、语音到文本和语音到语音翻译。

Meta推出“AI翻译官”!能翻译和转录近百种语言,已开源

处理语音的过程中,自监督语音编码器w2v-BERT 2.0相比于w2v-BERT版本,训练稳定性和生成质量有了提升,编码器可以将获取到的音频信号分解为更小的部分构建内部表示。

文本编码器采用的是文本到文本翻译模型NLLB,它经过训练可以理解近100种语言的文本并生成对翻译有用的信息。

然后到了生成文本的步骤,通过多任务训练,Meta利用NLLB模型,通过标记级知识蒸馏来指导语音到文本翻译模型,就可以将这一编码器应用于自动语音识别、多语言翻译任务。例如,某人用法语说“bonjour(你好)”,可以将其翻译为斯瓦西里语的文本“habari”。

翻译内容的语音输出,Meta基于UnitY模型中的文本到单元(T2U)组件,这一组件可以根据文本输出生成离散语音单元,并在UnityY微调之前根据自动语音识别数据进行预训练。然后使用多语言HiFi-GAN单元声码器将这些离散单元转换为音频波形。

结语:语言翻译仍需清除有害内容输出

就Meta的测试结果来看,SeamlessM4T相比于其他系统的翻译、转录效果更好,并且覆盖的语言范围也更为广泛。

值得一提的是,与所有生成式AI存在的风险类似,翻译过程的准确性也十分重要,这一AI模型可能会错误转录用户说的话,或转录有害信息等。

因此,Meta还将高度多语言的有害性内容分类器扩展到语音,以帮助识别语音输入和输出中的有害内容。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-08-24 15:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

重磅!“国奖”放榜:十年来AI 领域首个国奖一等奖花落科大讯飞
...的新品类,带上一个翻译机就像带上一个会85种语言的AI翻译官;在会议、办公等场景,讯飞听见系列产品能够实时记录和翻译会议录音,目前服务遍及全球50多个国家和地区,支持了超过4
2024-06-26 09:15:00
这4个语音翻译成文字的方法,简直太好用了
...音转文字软件来提高工作效率和生活便利。方法一、全能翻译官 全能翻译官是一款多语言翻译工具,可以将语音转化为文字,并将文字翻译成多种语言。该软件支持多种语言的翻译功能,如英语
2023-03-07 11:09:00
科大讯飞多语种技术,提供超1亿分钟公益服务
...用讯飞听见产品沟通近几年,科大讯飞在多语种智能语音语言技术系统性创新中不断取得突破,有力支撑了讯飞翻译机、讯飞智能录音笔、讯飞听见等智能软硬件产品不断创新。这些AI产品也一直
2024-05-08 15:08:00
小语种国家如何拥抱AI 全球专家论道WAIC
...新闻讯 由于数字化语料稀缺,全球主流大模型对低资源语言的支持严重不足,小语种国家面临AI边缘化风险。如何弥合这一数字鸿沟,7月28日,作为2025世界人工智能大会(WAIC)
2025-07-29 00:22:00
Meta发布 AI 模型SeamlessM4T,可转录和翻译近100种语言|钛快讯
...擎SeamlessM4T,可以更轻松地跨文本语音翻译和转录近100种语言。同时,Meta还公布了新的开源翻译数据集 SeamlessAlign
2023-08-23 12:01:00
融资1600万美元,这家法国AI创企推新语音转录引擎,支持100种语言
...音频智能创企Gladia成功融资1600万美元,并推出了一个多语言实时音频转录和分析引擎。该公司计划利用这笔资金推进研发
2024-10-17 09:45:00
国家科学技术进步一等奖,为何给了这家AI国家队
...破据了解,多语种智能语音技术对于支撑人机交互、人类语言互通及国家安全等需求具有重大战略意义,具有十分广阔的产业前景,是当前国际科技竞争核心焦点之一。为解决语音识别研究中最具挑
2024-06-25 09:30:00
AI语音迎来「特斯拉时刻」,一条工作流「吃掉」全球百亿市场
厨房里的语音助手精准响应指令,虚拟偶像跨七国语言无缝切换直播,短剧出海仅需一次点击即可生成多语种配音……这些曾被行业寄予厚望的AI语音场景,长期受限于技术瓶颈,沦为“实验室里的半
2025-04-08 19:25:00
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...新智元导读】Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语
2024-11-23 09:43:00
更多关于科技的资讯:
《2026胡润全球富豪榜》昨发布厦门上榜企业家人数大幅增加字节跳动创始人张一鸣蝉联中国首富,安踏丁世忠仍是厦门首富厦门网讯(厦门日报记者 李晓平)昨日
2026-03-06 08:33:00
厦门“她经济”升温 带动春日消费热潮
各大商场景区纷纷推出优惠活动,鲜花依旧是热卖品项。图为市民在天虹超市选购鲜花。厦门网讯(文/图 厦门日报记者 沈彦彦)“三八”妇女节临近
2026-03-06 08:33:00
【奋进“十五五”·代表委员献良策】张云泉委员:推进算力与智能体技术创新,夯实AI核心技术根基
全国政协委员张云泉。中国网3月6日讯(记者 谢露莹)今年是“十五五”规划开局之年,如何在新一轮科技革命和产业革命加速演进中占先机
2026-03-06 08:48:00
向新向优 河北力量|全国第一!河北算力指数折射发展新动能
全国第一河北算力指数折射发展新动能整理/河北日报记者 米彦泽 制图/喻萍算力是数字经济时代的新型生产力,是人工智能的基石之一
2026-03-06 09:18:00
向新向优 河北力量|覆盖率100%!共享智造赋能107个重点产业集群
覆盖率100%共享智造赋能107个重点产业集群■阅读提示2024年以来,河北省委、省政府审时度势,以“共享智造”为钥,开启县域特色产业跃升之门
2026-03-06 09:18:00
【宅男财经|财眼观两会】全国政协委员、新希望集团董事长刘永好接受中新经纬采访时称,作为民营企业家,最关注的是民营企业的健康
2026-03-06 10:08:00
借力资本市场,聚力燕赵智造。3月7日,河北资本市场大讲堂系列活动第五期将在沧州举办。活动聚焦股权投资关键领域,特邀国内创投领军机构深创投集团核心专家团队
2026-03-06 09:14:00
王冠一摘要:在信息化深入发展的背景下,企业会计工作正面临数据规模扩大、业务流程加速以及管理需求升级等多重变化。以数字技术为核心的会计创新成为推动企业财务治理能力提升的关键途径
2026-03-06 06:44:00
潜入实验室的“最前线”,在最不确定的阶段,为颠覆性的火种提供第一口氧气。——杭州城西科创投资发展有限公司副总经理江天2026年2月3日
2026-03-06 07:14:00
今年2月13日,一家名叫“月境未来”的科技公司在上城区正式成立。你可能没听过这个名字。但两个月前,那款刷爆朋友圈的App——“死了么”
2026-03-06 07:45:00
春节期间,来自贵州的创业者冉伟在杭州拿到了中国数谷·未来数智港首张OPC(One Person Company,一人公司)营业执照
2026-03-06 06:44:00
山东移动莱阳分公司:数字档案 “智” 变记,让民生服务暖到心坎里
胶东在线3月5日讯(通讯员于永真徐冰鑫)“以前查退休档案得跑两三趟,现在手机上点点,半小时就收到电子证明,太方便了!” 家住山东莱阳市的张阿姨
2026-03-05 23:14:00
3月5日,针对近日网络流传阿里巴巴“千问模型核心团队集体离职”“开源策略调整”等不实信息,阿里集团向媒体辟谣表示:1、目前千问模型团队稳定
2026-03-05 22:29:00
中新经纬3月5日电 《政府工作报告》起草组成员、国务院研究室副主任陈昌盛表示,要降低中小企业应用大模型的成本,鼓励地方搞一些算力
2026-03-05 22:19:00
华瑞银行获评上海市银行同业公会2025年度“上海银行业发展研究优秀成果”
近日,上海华瑞银行研究课题《信用风险评估建模中目标表现期选择的实证研究》,获评上海市银行同业公会2025年度“上海银行业发展研究优秀成果”
2026-03-05 17:15:00