我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

类别：科技发布时间：2025-10-30 09:10:00 来源：北青网

近日,Soul App AI团队(Soul AI Lab)正式开源播客语音合成模型SoulX-Podcast。该模型是一款专为多人、多轮对话场景打造的语音生成模型,支持中、英、川、粤等多语种/方言与副语言风格,能稳定输出超60分钟、自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话。

除了播客场景以外,SoulX-Podcast在通用语音合成或克隆场景下也表现出色,带来更真实、更生动的语音体验。

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

SoulX-Podcast表现

Demo Page:

https://soul-ailab.github.io/soulx-podcast

Technical Report:

https://arxiv.org/pdf/2510.23541

Source Code: https://github.com/Soul-AILab/SoulX-Podcast

HuggingFace: https://huggingface.co/collections/Soul-AILab/soulx-podcast

SoulX-Podcast亮点:流畅自然多轮对话、多方言、超长播客生成

零样本克隆的多轮对话能力

在零样本克隆播客生成场景中,SoulX-Podcast 展现出卓越的语音生成能力。它不仅能高度还原参考语音的音色与风格,更能根据对话语境灵活调节韵律与节奏,让每一段对话都自然流畅、富有节奏感。无论是多轮长时对话,还是情感层次丰富的交流,SoulX-Podcast 都能保持声音的连贯与表达的真实。此外,SoulX-Podcast 还支持笑声、清嗓等多种副语言元素的可控生成,让合成语音更具临场感与表现力。

多语种和跨方言的克隆能力

除中英文外,SoulX-Podcast 同样支持四川话、河南话、粤语等多种主流方言。更值得关注的是,SoulX-Podcast 实现了跨方言音色克隆——即便仅提供普通话的参考语音,模型也能灵活生成带有四川话、河南话、粤语等方言特征的自然语音。

超长播客生成

SoulX-Podcast可以支持超长播客的生成,并维持稳定的音色与风格。

聚焦语音,AI重构情感纽带

一直以来,声音都是传递信息和情感的重要媒介,也最能在沟通中赋予“情绪温度”和“陪伴感”。在Soul,用户积极通过语音实时互动,表达自我、分享交流,收获新关系,语音成为用户构建链接的“情感纽带”,“语音社交”也成为平台颇具代表性的标签之一。

在推进AI+社交的过程中,智能对话、语音生成、情感化表达等语音能力是Soul重点布局的方向。此前,平台端到端全双工语音通话大模型全面升级,并在站内开启内测。新模型赋予 AI 自主决策对话节奏的能力,AI可主动打破沉默、适时打断用户、边听边说、时间语义感知、并行发言讨论等,实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。

同时,团队推出了自研的语音生成大模型、语音识别大模型、语音对话大模型等语音大模型能力,快速应用于“虚拟伴侣”、群聊派对(多人语音互动场景)等多元场景中。

例如,9月,Soul 的两位虚拟人——孟知时与屿你——在群聊派对中发起了一场持续约40分钟的对话,在没有任何额外投流、仅依靠虚拟人自身自然流量的情况下,这场活动迅速引爆社区,房间互动热度刷新平台纪录,受到了广大用户的热烈欢迎。

这一成功案例让 Soul 的 AI 技术与虚拟IP运营团队深刻意识到:“虚拟IP + AI语音对话” 正在成为虚拟内容生态的重要增长点。它不仅展现了虚拟人的人格魅力与表达张力,更揭示了 AI 在内容创作与社交互动中的全新潜能。

然而,当时业界能够稳定支持多轮自然对话的开源播客生成模型相对较少,并且当场景从单人独白扩展到多人对话与长篇播客时,也普遍面临一些问题。为此,Soul 团队决定开源 SoulX-Podcast, 希望能携手 AIGC 社区,共同探索 AI 语音在内容创作、社交表达与虚拟生态中的更多可能。

开源新阶段,探索AI+社交更多可能

相比传统的单说话人语音合成系统,播客语音合成系统不仅需要保持文本与语音的精准一致,还要具备更强的上下文理解能力,以实现多轮对话间语音衔接的自然流畅与节奏的动态变化。此外,面对多角色交互和超长对话场景,系统还需在音色一致性、风格延续性以及角色切换的准确性上实现更高水平的控制与建模。

近来,已有部分开源研究开始探索播客或对话场景下的多说话人、多轮次语音合成能力。然而,这些工作仍主要聚焦于普通话或英语,对中文受众广泛的方言(如粤语、四川话、河南话等)支持不足。此外,在多轮语音对话场景中,恰当的副语言表达——如叹息、呼吸、笑声——对提升对话的生动性与自然度至关重要,但现有模型对此普遍关注不足。

而SoulX-Podcast正是希望解决这些痛点:不仅支持多轮、多角色的长对话生成,同时兼顾方言覆盖和副语言表达能力,使播客语音更贴近真实交流场景、富有表现力与生动感,从而提升听众的沉浸体验和内容传播力。

整体SoulX-Podcast模型基础结构上采用了常用的LLM + Flow Matching的语音生成范式,前者建模语义token,后者进一步建模声学特征。在基于LLM的语义token建模方面,SoulX-Podcast 以 Qwen3-1.7B 作为基座模型,并基于原始文本模型参数进行初始化,以充分继承其语言理解能力。

尽管SoulX-Podcast是专为多人、多轮对话场景设计的系统,但在传统的单人语音合成与零样本语音克隆任务中同样表现优异。在播客生成任务中,相较于近期相关工作,SoulX-Podcast 在语音可懂度与音色相似度方面均取得了最佳结果。

SoulX-Podcast在播客场景下的表现

SoulX-Podcast在通用TTS上的表现,*官方模型的复现结果

此次 SoulX-Podcast 的开源,是 Soul 在开源社区领域的一次全新尝试,也是一个新的起点。 Soul团队表示,未来将持续聚焦语音对话合成、全双工语音通话、拟人化表达、视觉交互等核心交互能力的提升,并加速技术在多样化应用场景与整体生态中的融合落地,为用户带来更加沉浸、智能且富有温度的交互体验,持续提升个体的幸福感与归属感。同时,团队将进一步深化开源生态建设,与全球开发者携手,共同拓展 AI 语音等前沿能力的边界,探索 “AI +社交” 的更多可能。责任编辑：韩璐(EN053)

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2025-10-31 05:45:10

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于语音,模型,对话,自然,支持,语音的资讯：

汉王语音王 App 发布：支持 AI 语音记录、对话翻译、同

...息，汉王今日在 2024 秋季新品发布会上带来旗下首款智能语音应用 —— 汉王语音王 App。 IT之家附汉王语音王应用亮点信息如下：据介绍，汉王语音王基于汉王自研多模态天

2024-08-09 09:23:00

扣子OpenAPI突进智能语音战场！点满低延时、定制化、随时

...音是不是很有代入感？这其实是使用扣子正在内测的智能语音对话 OpenAPI 实现的。当然，无限游戏并非扣子智能语音对话 OpenAPI 所能实现的唯一功能。扣子智能体商店中那

2024-11-22 09:49:00

字节跳动推出对话式ai实时交互解决方案

...载火山方舟大模型服务平台。该方案通过火山引擎RTC实现语音数据的采集、处理和传输，并深度整合豆包・语音识别模型和豆包・语音合成模型，简化语音到文本和文本到语音的转换过程，提供

2024-08-10 04:36:00

让大模型能听会说,国内机构开源首个端到端语音对话模型Mini

...类相近的自然语言交互能力，实现了 AI 能同时读懂人类语音中的内容及情绪，并实时做出反馈。同时，GPT4o 也给众多语音研究人员带来「新的春天」，语音文本多模态大模型成为热门

2024-09-07 09:44:00

把AI炼成销冠｜一知智能发布全新一代大模型对话产品「太一语音

...能再次以破壁者之姿，重磅推出基于大模型技术的新一代语音对话产品——“太一语音对话Agent”。这不仅是一知智能在人机交互领域的第八年持续创新，更是顶尖研发力量持续探索、从零起

2025-07-14 16:35:00

科技巨头打响语音模型之战！亚马逊用Claude升级Alexa

...「Her」还是期货，但硅谷的科技巨头们已经开始相继发力语音模型。前有谷歌的Gemini Live和苹果的升级版Siri

2024-09-10 13:38:00

语音能力再突破！讯飞星火语音大模型即将发布

记者刘阿龙人工智能快速发展催生语音合成技术不断成熟，让机器不仅能“开口说话”，还能“谈心交心”，在语音技术的突破下，人机交互将迎来新的发展阶段。1月30日，讯飞星火认知大模型V

2024-01-29 15:57:00

快手推出“飞船”App：基于“快意”AI 模型，主打虚拟陪伴

...在提升用户的生活质量和工作效率。用户可以通过文字或语音与 AI 助手进行交流，解答疑问、获得娱乐、进行创作和角色定制等。用户在飞船平台上扮演“船长”角色，名为快快的 AI 少

2024-08-14 09:44:00

OpenAI推出“全能模型”GPT-4o，支持语音、视频、

OpenAI 表示，该模型将在未来几周内上线，并将通过 ChatGPT 应用程序和网页版免费开放给所有用户。ChatGPT 的付费订阅用户（每月 20 美元起）将能够提出更多请求

2024-05-15 13:45:00

更多关于科技的资讯：

加速“买全球”，今年单量突破1亿单——义乌成为我国跨境电商进

浙江日报义乌12月3日电（记者拜喆喆何贤君共享联盟·义乌吴峰宇） 3日，义乌今年第1亿个跨境电商进口订单完成打包

2025-12-04 08:41:00

中国科大新实验终结爱因斯坦与玻尔世纪之辩

大皖新闻讯大皖新闻记者从中国科学技术大学获悉，该校潘建伟、陆朝阳、陈明城教授等组成的研究团队，利用光镊囚禁的量子基态单原子

2025-12-04 11:03:00

北京消协联合8家电商平台承诺：严禁AI换脸仿冒名人明星带货

中新经纬12月4日电 “北京市场监管”微信号4日消息，为应对AI合成技术滥用风险，规范电商直播行业秩序，近日，北京市消费者协会(以下简称“北京消协”)联合京东

2025-12-04 11:06:00

$用一张照片告别2025：富士胶片X-SPACE三城点亮\$

用一张照片告别2025：富士胶片X-SPACE三城点亮"影像

2025年11月起，富士胶片影像共享空间X-SPACE于上海、南京、杭州三地先后启动年末特别企划——"影像之树"作品征集与交流活动

2025-12-04 11:49:00

《2026年中国礼品行业展望白皮书》发布“差异化”和“质价比

2025年10月20-23日，第33届深圳礼品家居展于深圳国际会展中心举办，展会同期进行的2025中国礼业高峰论坛上，展会主办方励展华博第三次携手国际知名咨询公司凯度重磅首发《2026年中国礼品行业展望白皮书》

2025-12-04 11:55:00

体育总局：鼓励境外优质资本投资国内各级各类职业联赛

中国网12月4日讯据国家体育总局网站消息，体育总局日前印发《关于进一步推进篮球改革发展的意见》。其中提出，有序促进职业篮球开放

2025-12-04 12:16:00

短剧“薅”长剧羊毛保护原创等不得-中国吉林网

长白时评评论员刘颂寒12月1日，电视剧《家业》和制片方华策影视发文，谴责部分短剧投机取巧，擅自截取《家业》宣传物料中的创意元素“跟拍”

2025-12-04 13:48:00

清风相伴，智造新势力“拔节生长”

近年来，智能制造产业园引导企业顺应数字化浪潮，积极落实智改数转，推动科技创新与产业创新深度融合。以南汽集团为核心的汽车产业

2025-12-04 11:20:00

储热赋能双碳智慧引领供热泰山集团高电压直入式电储能技术破

鲁网12月4日讯在“双碳”目标深入推进、能源结构加速转型的时代背景下，电网峰谷差拉大、清洁供热需求迫切、弃风弃光资源浪费等问题成为制约绿色发展的关键瓶颈

2025-12-04 09:57:00

上海街头的数字生活指南，是城市数字品牌与公共艺术的对话

在上海，街头悄然出现的“数字城市指示牌”成为了市民与游客驻足讨论的热点。这些立体的、新颖的指示牌，是“智云上海”这个城市信息化名片的立体呈现

2025-12-04 08:17:00

基于提示工程的模型输出不确定性量化分析

摘要：随着生成式人工智能技术在各行业的广泛应用，模型输出结果的不确定性问题日益受到关注。为提高模型在关键领域的可靠性，对输出不确定性进行量化分析成为重要方向

2025-12-04 06:17:00

给智能体装上“大脑”和“小脑”

杭州博士后用AI让机器懂协作、更安全杭州日报讯让机器从执行命令的“孤岛”，成为懂得协作的群体？让机器人安全走进人类生活

2025-12-04 06:38:00

紫林醋业产品通过欧盟认证

12月3日从紫林醋业获悉，紫林醋业部分主导产品通过欧盟有机认证(EU Organic Certification)，获准使用欧盟统一有机标识“欧洲叶标”(Euro-Leaf)

2025-12-04 07:31:00

豆包手机助手回应“侵犯用户隐私”：不存在任何黑客行为

中新经纬12月3日电 12月3日，豆包手机助手在官方微信号就“侵犯用户隐私”等问题进行回应，称不存在任何黑客行为。具体来看

2025-12-04 07:42:00

支付宝AI4SDL研发安全体系斩获首届“AI领航杯”星光金奖

12月1日-3日，由中国互联网协会主办的2025“人工智能+”产业生态大会在北京举办。开幕式上，首届“AI领航杯”“人工智能+”应用与技能大赛总决赛举行了隆重的颁奖仪式

2025-12-04 07:47:00

头条订阅服务

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话