• 我的订阅
  • 科技

让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni

类别:科技 发布时间:2024-09-07 09:44:00 来源:机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1000+ 星标。

随着多类型大模型的飞速发展,全球 AI 已经进入到了多模交互时代。

2024 年 5 月,OpenAI 推出了全新的多模态模型 GPT4o,引起全球轰动。其中 GPT4o 展现出了与人类相近的自然语言交互能力,实现了 AI 能同时读懂人类语音中的内容及情绪,并实时做出反馈。同时,GPT4o 也给众多语音研究人员带来「新的春天」,语音文本多模态大模型成为热门研究方向。

实现类似 GPT4o 实时语音交互能力的核心是模型能够直接在语音模态上进行理解和推理,这与传统的语音对话功能有本质的不同。现有的语音对话系统中主要包含 3 个过程:首先将输入语音内容转换为文本,其次利用大语言模型进行文本推理,最后利用语音合成系统生成并输出语音。

然而,类似的多阶段串联系统存在一些缺陷,比如模型无法理解语音中包含的情绪及其它非文本内容信息;同时由于额外的语音识别及合成带来的时间开销导致 AI 回复迟缓等实时性问题。

针对以上问题,学术界开始研究支持端到端、语音到语音的多模态大模型。为方便结合大语言模型的研究成果,通常会将语音离散化为 Audio Token,并基于 Audio Token 进行学习和推理。这其中具有代表性的工作包括 SpeechGPT、Spectron 等,它们均采用QuestionAudio-QuestionText-AnswerText-AnswerAudio 等形式来降低直接对语音进行学习推理的难度。

但同时,这些方法也需要生成完整的 AnswerText 后才能生成 AnswerAudio,无法解决实时性问题。

为解决上述问题,我们提出了Mini-Omni,第一个开源的端到端实时语音多模态模型,支持语音输入、流式语音输出的多模态交互能力。具体来讲,我们提出了文本-语音同时生成的方案,通过让已生成的文本 token 指导生成语音 token,有效降低了直接推理语音内容的难度,同时避免了等待生成完整文本答案带来的时间消耗。

让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni

论文题目:Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming 论文地址:https://arxiv.org/abs/2408.16725 代码仓库:https://github.com/gpt-omni/mini-omni

针对多层级的音频编码方案,本文采用不同层级延迟并行输出的方案减小音频推理长度,有效解决实时性问题。同时还提出了多任务同时推理的生成方法进一步加强模型的语音推理能力。另一方面,本文所采用训练方案可有效迁移至任意语言大模型,通过增加少量参数及分阶段训练,在尽可能保留模型原始推理能力的同时,为模型加上 「听、说」的语音交互能力。

为了验证方案的有效性,Mini-Omni 在使用仅 0.5B 的小模型和少量开源及合成数据的情况下,在实时语音问答及语音识别等方面表现出令人惊喜的效果。

总结来说,本文主要贡献为:

提出了首个开源的端到端、实时语音交互的多模态模型解决方案,支持语音流式输出,不需要额外的 ASR 或 TTS 系统。 推理过程中,可同时生成语音和文本信息,通过文本指导语音生成,有效降低语音推理的学习难度。 提出多阶段的训练方案,可通过少量开源或合成数据使任意语言模型具备语音交互能力。

Mini-Omni 模型架构

Mini-Omni 整体模型框架如下图所示,模型输入端可以是语音或文本,输出端同时包含文本和语音。为复用语言模型「预测下一个 token」的学习范式,输出侧语音采用离散编码,本文采用了 SNAC 编解码方案。

针对语音交互场景,输入语音经过预训练 whisper 的语音编码模块进行连续特征提取,然后通过 2 层 MLP 对齐语音信息与文本信息。输出侧,每一步会通过音频解码头和文本解码头同时进行文本 token 与语音 token 解码,然后将输出的音频表征和文本表征进行特征融合,再作为下一步的输入。同时,在推理过程中,可将输出的语音 token 流式输入至 SNAC 解码器中生成语音,实现低延迟的语音交互。

通过采用文本信息指导语音信息输出的形式,有效降低了直接进行语音输出推理的学习难度,实现少量数据即可使语言模型具备语音问答能力。这种一边生成文本,一边生成对应语音的形式功能上类似于「在线 TTS 系统 (online TTS)」,具有较好的灵活性。

让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni

文本指导下的音频生成

为降低直接推理语音信息的学习难度,以及减少推理过程中语音 token 长度,我们采用了文本和语音延迟并行生成的方案,其示意图如下。

让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni

本文所采用的 SNAC 方案,每一帧具有 7 个有效语音 token,对应音频时长为 80ms。一种语音建模方案是将语音的所有 token 平铺展开进行顺序推理,类似方案在音乐生成领域已被验证生成效果较好。但也存在语音 token 序列长、学习难度高等问题。为实现实时语音推理,我们采用延迟并行推理的方案。

具体来讲,模型每一步同时生成 8 个 token,包括 7 个语音 token 和 1 个文本 token。由于音频依赖文本内容,而音频的 7 个 token 之间从前到后是由粗到细的建模关系,所以在推理开始时如上图 (b) 所示。首先生成文本的第一个 token,然后生成文本的第二个 token 和第一层音频的第一个 token,以此类推。先输出文本 token 主要为了语音 token 在生成过程中有文本内容进行参考。

同时,由于文本指导语音生成方案的灵活性,我们在实验中发现,推理时在一个批次中同时进行 audio-to-audio 和 audio-to-text 两个任务,并用后者的文本 token 替换前者的文本 token 以指导前者的语音生成(如上图 c 中所示),可有效提升语音对话的能力。

让每个模型都能「听说」

我们提出了一种主要基于适配器的模型能力扩展方法,具体学习过程可以分为三个阶段:

首先模态对齐:此阶段的目标是增强文本模型理解和生成语音的能力。过程中,Mini-Omni 的 LLM 模块完全冻结,只在语音理解和生成两个适配器中进行梯度更新。在这个阶段,我们使用开源语音识别 (ASR) 和语音合成 (TTS) 数据集来进行训练。

其次适应训练:完成新的模态与文本模态的输入对齐后,将语音适配器冻结。在这个阶段中,我们将可用的文本问答对中的问题部分采用开源多音色的语音合成系统进行语音数据合成,生成语音问答数据集。我们关注于训练模型在给定音频输入时的文本推理能力。模型使用语音识别 (ASR)、语音问答 (AudioTextQA) 和文本问答 (TextTextQA) 任务的数据集进行训练。

最后多模态微调:在最后阶段,我们使用全面的数据对整个模型进行微调,新增如全语音问答 (AudioAudioQA)、文本语音问答 (TextAudioQA) 等形式数据集。此时,除了音频所有模型权重都会参与训练。由于适配器训练期间已经处理了主要的模态对齐任务,原始模型的能力得以最大限度地保留。

通过上述多阶段的训练流程,结合开源语音数据,本文只需合成少量的语音问答数据即可使任意语言模型具备「听说」的能力,实现纯语音的端到端自然交互。

实验效果

我们主要采用开源语音或文本问答数据进行训练,具体可参考下表。其中 A1 和 T1 表示音频及对应的文本内容,A2、T2 同理。针对问答场景,1 表示问题,2 表示对应问答的答案。

让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni

下图中,我们展示了 Audio-to-Text、Audio-to-Audio、Batch-Audio-to-Audio 三种任务中 Mini-Omni 的具体表现。

让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni

更多研究细节,可参考原论文。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-07 11:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

刚刚,重磅发布!阿里、腾讯、科大讯飞在列
...首批公开的算法备案清单。值得注意的是,此次名单中大模型算法并不多,除了百度PLATO大模型算法和讯飞星火认知大模型算法之外,阿里的多模态算法达摩院交互式多能型合成算法也在列。
2023-06-20 17:00:00
Meta发布 AI 模型SeamlessM4T,可转录和翻译近100种语言|钛快讯
...在加紧追赶,以及重新组合其关于语言、对话等领域与大模型相关的研究。去年底之后,Meta陆续发布No Language Left Behind(不留语言)文本到文本的机器翻译模型
2023-08-23 12:01:00
字节跳动推出对话式ai实时交互解决方案
...日宣布推出对话式AI实时交互解决方案,搭载火山方舟大模型服务平台。该方案通过火山引擎RTC实现语音数据的采集、处理和传输,并深度整合豆包・语音识别模型和豆包・语音合成模型,简
2024-08-10 04:36:00
标贝科技GPT语音助手测评:看语音大模型如何重塑语音交互体验
...步,语音助手已经融入了我们生活的方方面面。同时在大模型落地千行百业的大潮之下,语音助手也快速卷入AI革命的浪潮中。GPT大模型作为一种强大的语言生成模型,通过语言理解、生成能
2024-01-10 17:00:00
openai语音翻译又出新功能了!
...喜欢的声音。 这项新的语音功能由一个新的文本到语音模型支持,能够在短时间内从纯文本生成与人类相似的音频。团队与专业配音演员合作,为每种声音创设独特的音调。同时,他们使用了自
2023-09-26 14:59:00
刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的
...EglhJA与此同时,智谱还重磅宣布,该功能背后的情感语音模型 GLM-4-Voice 同步正式开源。不久后,相关能力还将上线视频通话
2024-10-26 09:49:00
OpenAI推迟上线语音功能,GPT-5或要等到明年,大模型技术速度正在放缓
出品 | 搜狐科技作者 | 梁昌均大模型技术进展肉眼可见地放缓了,OpenAI此前说好的语音功能也鸽了。OpenAI针对此前展示的高级语音功能发布最新进展称
2024-06-26 11:35:00
一文详解AIGC:忘记概念,只聊落地
... Face Transformers:面向自然语言处理任务的一系列数据集、模型和工具箱,包括对话生成、摘要、自动问答
2023-06-10 15:00:00
OpenAI发布免费新品GPT-4o:可对音频、视觉和文本实时推理,与人自然对话,功能秒杀Siri
...布新产品,不是AI搜索引擎,也不是GPT-5,而是GPT-4o旗舰模型。OpenAI在ChatGPT中引入GPT-4o并免费提供更多功能
2024-05-14 16:45:00
更多关于科技的资讯: