我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

150万条多语种音频数据！浙大清华发布语音伪造检测框架SafeEar，兼顾隐私保护｜CCS 2024

类别：科技发布时间：2024-09-27 13:40:00 来源：新智元

【新智元导读】SafeEar是一种内容隐私保护的语音伪造检测方法，其核心是设计基于神经音频编解码器的解耦模型，分离语音声学与语义信息，仅利用声学信息检测，包括前端解耦模型、瓶颈层和混淆层、伪造检测器、真实环境增强四部分。

近年来，语音合成和语音转换等技术取得快速发展，基于相关技术能够合成逼真、自然的音频。然而，攻击者可利用该技术进行语音伪造，即「克隆」特定对象语音，为用户隐私安全与社会稳定带来严重威胁。

目前，已有较多基于卷积神经网络、图神经网络等的伪造检测方法取得了优越的检测效果。但现有工作通常需要采用音频波形或频谱特征作为输入，即需要访问语音完整信息，在该过程中存在语音隐私泄露问题。同时，已有研究证实音色、响度等声学特征在语音伪造检测上的重要性[1,2]，这为仅基于声学特征进行深度伪造检测带来潜在可能。

针对此问题，浙江大学智能系统安全实验室(USSLAB)与清华大学联合提出SafeEar，一种内容隐私保护的语音伪造检测方法。

论文地址：https://safeearweb.github.io/Project/files/SafeEar_CCS2024.pdf

论文主页：https://safeearweb.github.io/Project/

代码地址：https://github.com/LetterLiGo/SafeEar

CVoiceFake数据集地址：https://zenodo.org/records/11124319

SafeEar的核心思路是，设计基于神经音频编解码器（Neural Audio Codec）的解耦模型，该模型能够将语音的声学信息与语义信息分离，并且仅利用声学信息进行伪造检测(如图1)，从而实现了内容隐私保护的语音伪造检测。

该框架针对各类音频伪造技术展现良好的检测能力与泛化能力，检测等错误率(EER)可低至2.02%，与基于完整语音信息进行伪造检测的SOTA性能接近。同时实验证明攻击者无法基于该声学信息恢复语音内容，基于人耳与机器识别方法的单词错误率(WER)均高于93.93%。

图1 SafeEar原理示意图

方法概述

SafeEar采用一种串行检测器结构，对输入语音获取目标离散声学特征，进而输入后端检测器，主要框架如图2所示。

图2 SafeEar框架示意图。(虚线方框内的④Real-world Augmentation仅在训练时出现，推理阶段仅有①②③模块)

主要包括以下四个部分：

1. 基于神经音频编解码器的前端解耦模型（Frontend Codec-based Decoupling Model, Frontend CDM）

受SpeechTokenizer[3]等前期工作的启发，该部分基于神经音频编解码器结构，在语音特征分离与重建的过程中实现语音特征解耦。如图3所示，包括编码器（Encoder）、多层残差向量量化器（Residual Vector Quantizers, RVQs）、解码器（Decoder）、鉴别器（Discriminator）四个核心部分。

其中，RVQs主要包括级联的八层量化器，在第一层量化器中以Hubert特征作为监督信号分离语义特征，后续各层量化器输出特征累加即为声学特征。

2. 瓶颈层和混淆层（Bottleneck & Shuffle）

如图4所示，瓶颈层被用于特征降维表征和正则化处理。混淆层对声学特征进行固定时间窗范围内的随机打乱重置，从而提升特征复杂度，确保内容窃取攻击者即便借助SOTA的语音识别（ASR）模型，也无法从声学特征中强行提取出语义信息。最终，经过解缠和混淆双重保护的音频可以有效抵御人耳或者模型两方面的恶意语音内容窃取。

3. 伪造检测器（Deepfake Detector）

最近研究表明Transformer分类器在伪造检测方面的潜力[4]，SafeEar框架的伪造音频检测后端设计了一种仅基于声学输入的Transformer-based分类器，采用正弦、余弦函数交替形式对语音信号在时域和频域上进行位置编码。该分类器的主要结构如图5所示，包括编码器、池化层和全连接层等部分。

图5 基于声学特征的语音伪造检测分类器。

4. 真实环境增强（Real-world Augment）

鉴于现实世界的信道多样性，采用具有代表性的音频编解码器（如G.711、G.722、gsm、vorbis、ogg）进行数据增强，模拟实际环境中带宽、码率的多样性，以推广到不可见通信场景。

实验结果

伪造检测效果

本文选择了八个代表性的基线方法，其中包括端到端检测器(AASIST[5]、RawNet2[6]、Rawformer[7])和串行检测器(LFCC+SE-ResNet34[8]、LFCC + LCNN-LSTM[9]、LFCC+GMM[10]、CQCC+GMM[10]、Wav2Vec2+Transformer)，测试数据集采用语音伪造检测代表性数据集ASVspoof2019[11]和ASVspoof2021[12]，实验结果如表1所示。

SafeEar在信息损失的情况下，仍能实现较为优越的检测效果，在同类型的串行检测器中达到最低等错误率（3.10%），且优于部分端到端检测器。

表1 整体伪造检测效果对比

隐私保护效果

对于隐私保护效果，本文讨论了具有不同能力的三类主要攻击者，包括Naive content recovery adversary（CRA1）、Knowledgeable content adversary（CRA2）和Adaptive content adversary（CRA3），通过语音识别（具有代表性的ASR模型和开源ASR API）准确率评价隐私保护的效果。

由于解耦出的声学特征具有信息损失性，攻击者无法有效恢复或重建语音内容，从而证明该方法具有隐私保护能力。同时，论文通过用户测试体现出人耳与机器在内容隐私恢复上均具有较高难度。部分实验结果如下。

图6 训练过程中验证集上词错误率变化曲线（CRA1）。可见ASR模型（Conformer、Bi-LSTM）对于SafeEar保护后的语音始终无法识别，WER曲线保持过高数值且震荡；而对于完整音频，ASR模型可迅速收敛并在验证集上取得极低的WER

图7 真实的用户调研表明，ASR模型被认为能够有效识别完整音频（高达Original: 8.99），而对于SafeEar面对不同攻击者等级下的识别效果始终很差（低至CRA2: 1.31、CRA3: 1.31）；同理人耳听感的清晰度分别为Original: 9.38、CRA2: 1.10、CRA3: 1.60。当用户模拟攻击者尝试恢复语音内容时，在SafeEar保护下的WER始终高于96.37%

音频示例

原始音频 / SafeEar保护后的音频：

总结与展望

本文在保护语音内容隐私的同时实现了语音深度伪造检测，该方法可被应用于实时语音通话环境，具有优越的检测准确性和泛化能力。

同时，该工作构建了涉及五种主流语言（英语、中文、德语、法语、意大利语）、多声码器（Parallel WaveGAN, Multi-band MelGAN, Style MelGAN, Griffin-Lim, WORLD, DiffWave）的语音伪造检测数据集CVoiceFake，最新数据集涵盖150万个语音样本及其对应转录文本，可作为语音伪造检测和内容恢复攻击的基准数据集。

SafeEar也提供了一种新颖的隐私保护串行检测框架，能够在其他相关任务中沿用和拓展，进而推进智能语音服务安全化发展。

参考资料：

[1] Chaiwongyen A, Songsriboonsit N, Duangpummet S, et al. Contribution of Timbre and Shimmer Features to Deepfake Speech Detection[C]. 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). Chiang Mai, Thailand: IEEE, 2022: 97-103.

[2] Li M, Ahmadiadli Y, Zhang X P. A Comparative Study on Physical and Perceptual Features for Deepfake Audio Detection[C]. Proceedings of the 1st International Workshop on Deepfake Detection for Audio Multimedia. Lisboa Portugal: ACM, 2022: 35-41.

[3] Zhang, X., Zhang, D., Li, S., Zhou, Y. and Qiu, X., 2023. SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language Models. International Conference on Learning Representations (ICLR) 2024.

[4] Liu, X., Liu, M., Wang, L., Lee, K.A., Zhang, H. and Dang, J., 2023, June. Leveraging positional-related local-global dependency for synthetic speech detection. In ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 1-5). IEEE.

[ 5] Jung J weon, Heo H S, Tak H, et al. AASIST: Audio Anti-Spoofing using Integrated Spectro-Temporal Graph Attention Networks[J]. arXiv, 2021.

[6] Jung J weon, Kim S bin, Shim H jin, et al. Improved RawNet with Feature Map Scaling for Text-independent Speaker Verification using Raw Waveforms[J]. arXiv, 2020.

[7] Liu X, Liu M, Wang L, et al. Leveraging Positional-Related Local-Global Dependency for Synthetic Speech Detection[C]. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Rhodes Island, Greece: IEEE, 2023: 1-5.

[8] Pal M, Raikar A, Panda A, et al. Synthetic Speech Detection Using Meta-Learning with Prototypical Loss[J]. arXiv, 2022.

[9] Wang X, Yamagishi J. A Comparative Study on Recent Neural Spoofing Countermeasures for Synthetic Speech Detection[J]. arXiv, 2021.

[10] ASVspoof2021 challenge organizers. ASVspoof 2021 Baseline CM & Evaluation Package[EB/OL]. 2021. https: //github.com/asvspoof- challenge/2021.

[11] Yamagishi J, Todisco M, Delgado H, et al. ASVspoof 2019: Automatic Speaker Veriﬁcation Spooﬁng and Countermeasures Challenge Evaluation Plan[R]. ASV Spoof, 2019: 13.

[12] Delgado H, Evans N, Kinnunen T, et al. ASVspoof 2021: Automatic Speaker Verification Spoofing and Countermeasures Challenge Evaluation Plan[J]. arXiv, 2021.

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-09-27 14:45:09

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于多语,多语种,万条,清华,隐私保护,框架的资讯：

梳理人工智能应用场景需求，精准招引AI 优势企业

...务、跨境协同、基层覆盖方面存在显著短板，数据安全与隐私保护挑战突出。二、广西精准招引优势AI企业的对策（一）强化政策靶向引导，构建精准招引体系构建需求导向型体系。针对物流、农

2025-09-15 14:32:00

清华年度最大校园招聘会启动

...人单位为国际学生提供就业岗位。此外，学校近期推出了多语种一对一职业咨询服务，70余位个体咨询师为国际学生提供中、英、日等多语种职业咨询。(完)

2024-03-15 22:37:00

国家科学技术进步一等奖，为何给了这家AI国家队

...）信息技术有限公司等高校及行业领军企业联合完成的“多语种智能语音关键技术及产业化”项目荣获2023年度国家科技进步奖一等奖。据悉，这是深度学习引发全球人工智能浪潮以来，过去十

2024-06-25 09:30:00

11部门：支持更多境外电子钱包在境内使用

...鼓励数字化服务平台在显著位置标示界面翻译功能或发布多语种外文版本，利用人工智能等技术提高外文翻译的即时性和准确性。编制专有名词翻译指南，提供统一地理、文化、法规等领域专有名词

2026-02-05 22:23:00

一个指标，让英美大学垄断前10

...标，恐怕是一个对英语国家——尤其是英语移民国家以及多语种国家有明显倾向性的指标。因为，从泰晤士高等教育官网给出的评分方法来看，这个“国际展望”的指标，主要就是看一个大学里有多

2024-10-13 09:51:00

“讯飞同传麦克风”全球首发让多语言会议无障碍沟通

...传麦克风”，致力于打造“听得清、译得准、记得全”的多语言交流体验，为全球用户带来多语言会议的全新范式。指向型麦克风拾音更清晰全球经济一体化进程加速，跨国协作、国际会议、跨境

2025-11-07 11:47:00

老外桂林旅行遭遇痛点业内直指产业发展诱因

...保护了客人的隐私，同时也不影响其它游客。 5. 此外，多语言讲解资源匮乏。景区讲解服务中英文导览种类单一，小语种导游数量严重不足，导致外宾接待保障能力欠缺，难以满足国际游客

2025-05-29 11:19:00

重磅！“国奖”放榜：十年来AI 领域首个国奖一等奖花落科大讯

...小米等科技公司出现，而科大讯飞作为第一完成单位的“多语种智能语音关键技术及产业化”项目，更是斩获国家科学技术进步奖一等奖。这是深度学习引发全球人工智能浪潮以来，过去十年人工智

2024-06-26 09:15:00

小语种国家如何拥抱AI 全球专家论道WAIC

...支持55个语种语音合成，效果业内领先。至今，科大讯飞多语种技术已为华为、比亚迪、海尔等中国企业的1.2亿台套设备提供语音交互支持，涵盖23种语言，在非洲、东南亚等国家实地落地

2025-07-29 00:22:00

更多关于科技的资讯：

一键撰联赋吉年 “马踏新程”春节系列评论（二）

马年新春，光景别样。打开手机AI小程序，输入姓名、爱好与新年心愿，一键可生成专属春联。AI深度融入日常生活，无所不在。拥抱AI

2026-02-16 07:39:00

青岛市南：智聚成势着力打造“一人成军”OPC生态社区群落

鲁网2月15日讯在人工智能加速重构产业组织形态的背景下，“一人即公司”（OPC）正成为全球创新创业的新范式。2026年2月12日

2026-02-15 20:48:00

2026年春节自驾安全指南：平安回家路，这些要点必看！扫码

2026-02-15 22:14:00

石家庄市栾城区妇联举办美妆技能培训

河北新闻网讯（王秀平、李明发）近日，石家庄市栾城区妇联联合妆颜美化妆培训学校，精心举办了一场干货满满的美妆技能培训活动

2026-02-15 19:16:00

英科医疗开年首展登录迪拜WHX展会，“中国智造”医疗解决方案

2月9日至12日，全球领先的医疗护理产品供应商英科医疗携三大事业部创新成果亮相阿拉伯国际医疗器械展览会（World Health Expo Dubai）

2026-02-15 13:50:00

龙岗文旅数字IP城市巡礼破圈传播，迎春花市成内容热点

市民围观、拍照打卡，数字人引爆春节花市春节前夕，龙岗迎春花市迎来一场特别的巡礼：数字IP首次在花市与市民面对面互动。现场

2026-02-15 13:52:00

关键时刻显担当！大众汽车致信感谢中亦科技

近日，中亦科技收到了一封来自大众汽车的感谢信。信中对中亦科技服务团队在应对大规模生产系统突发故障时的卓越表现，以及长期以来展现出的专业素养和“以客户为中心”的担当精神给予了高度评价

2026-02-15 10:23:00

杭产数字人“席卷”东南亚

“这款粉底色号非常自然，贴合亚洲人肤色。” 马来西亚TikTok直播间，一位妆容精致的主播正微笑着与观众互动，当用户追问具体颜色

2026-02-15 07:41:00

《视野》杂志启动AI协作创作大赛

中国青年报客户端讯（中青报·中青网记者马富春）2月13日，《视野》杂志“人类文明备忘录”AI协作创作大赛正式启动。活动以直播+实时互动形式展开

2026-02-14 20:52:00

新春走基层丨76秒，一套汽车零部件焊接就能下线

见习记者朱荣琛2月12日，农历腊月廿五。春节临近，廊坊经开区道路两旁挂上了大红灯笼，沿街企业的大门已贴上了大对联。热热闹闹的年味儿在这个城市的大街小巷悄然弥漫

2026-02-14 22:12:00

中国银行隆尧支行提升春节期间自助服务效能

针对春节期间服务需求，中国银行隆尧支行近日聚焦自助服务渠道，启动了专项保障工作。针对县域网点分布广、运维半径长的特点，隆尧支行依托历史运行数据

2026-02-14 22:17:00

飞来峰丨我们需要怎样的科学企业家？

领航新质生产力——2025浙江省科学企业家这个专题，是省科协和潮新闻联合举办的，已陆续推出了近二十位具有科技创新精神的浙商企业家

2026-02-14 22:34:00

深圳地铁陪你「返屋企」，跨场景互动刷新通勤与春运体验

近日，深圳地铁迎来了新春限定数字人，结合AI原创音乐与互动体验，走到了春运最前沿。这是深圳地铁数字IP首次以完整的互动形态沉浸式接入城市公共空间

2026-02-14 20:26:00

太原“新春招聘月”将于正月初八启幕

2月14日消息，2026年“新春招聘月”系列活动将于2月24日(正月初八)在五一广场太原人才大市场(迎泽区零工示范站)正式启幕

2026-02-14 17:37:00

星火空间完成数千万天使+轮融资核心产品“进化一号”发动机完

大皖新闻讯此前关于合肥要造火箭的消息引发外界广泛关注，背后则是合肥星火空间科技有限公司（以下简称“星火空间”）落户合肥新站高新区

2026-02-14 18:45:00

头条订阅服务

150万条多语种音频数据！浙大清华发布语音伪造检测框架SafeEar，兼顾隐私保护｜CCS 2024