• 我的订阅
  • 科技

150万条多语种音频数据!浙大清华发布语音伪造检测框架SafeEar,兼顾隐私保护|CCS 2024

类别:科技 发布时间:2024-09-27 13:40:00 来源:新智元

150万条多语种音频数据!浙大清华发布语音伪造检测框架SafeEar,兼顾隐私保护|CCS 2024

【新智元导读】SafeEar是一种内容隐私保护的语音伪造检测方法,其核心是设计基于神经音频编解码器的解耦模型,分离语音声学与语义信息,仅利用声学信息检测,包括前端解耦模型、瓶颈层和混淆层、伪造检测器、真实环境增强四部分。

近年来,语音合成和语音转换等技术取得快速发展,基于相关技术能够合成逼真、自然的音频。然而,攻击者可利用该技术进行语音伪造,即「克隆」特定对象语音,为用户隐私安全与社会稳定带来严重威胁。

目前,已有较多基于卷积神经网络、图神经网络等的伪造检测方法取得了优越的检测效果。但现有工作通常需要采用音频波形或频谱特征作为输入,即需要访问语音完整信息,在该过程中存在语音隐私泄露问题。同时,已有研究证实音色、响度等声学特征在语音伪造检测上的重要性[1,2],这为仅基于声学特征进行深度伪造检测带来潜在可能。

针对此问题,浙江大学智能系统安全实验室(USSLAB)与清华大学联合提出SafeEar,一种内容隐私保护的语音伪造检测方法。

150万条多语种音频数据!浙大清华发布语音伪造检测框架SafeEar,兼顾隐私保护|CCS 2024

论文地址:https://safeearweb.github.io/Project/files/SafeEar_CCS2024.pdf

论文主页:https://safeearweb.github.io/Project/

代码地址:https://github.com/LetterLiGo/SafeEar

CVoiceFake数据集地址:https://zenodo.org/records/11124319

SafeEar的核心思路是,设计基于神经音频编解码器(Neural Audio Codec)的解耦模型,该模型能够将语音的声学信息与语义信息分离,并且仅利用声学信息进行伪造检测(如图1),从而实现了内容隐私保护的语音伪造检测。

该框架针对各类音频伪造技术展现良好的检测能力与泛化能力,检测等错误率(EER)可低至2.02%,与基于完整语音信息进行伪造检测的SOTA性能接近。同时实验证明攻击者无法基于该声学信息恢复语音内容,基于人耳与机器识别方法的单词错误率(WER)均高于93.93%。

150万条多语种音频数据!浙大清华发布语音伪造检测框架SafeEar,兼顾隐私保护|CCS 2024

图1 SafeEar原理示意图

方法概述

SafeEar采用一种串行检测器结构,对输入语音获取目标离散声学特征,进而输入后端检测器,主要框架如图2所示。

150万条多语种音频数据!浙大清华发布语音伪造检测框架SafeEar,兼顾隐私保护|CCS 2024

图2 SafeEar框架示意图。(虚线方框内的④Real-world Augmentation仅在训练时出现,推理阶段仅有①②③模块)

主要包括以下四个部分:

1. 基于神经音频编解码器的前端解耦模型(Frontend Codec-based Decoupling Model, Frontend CDM)

受SpeechTokenizer[3]等前期工作的启发,该部分基于神经音频编解码器结构,在语音特征分离与重建的过程中实现语音特征解耦。如图3所示,包括编码器(Encoder)、多层残差向量量化器(Residual Vector Quantizers, RVQs)、解码器(Decoder)、鉴别器(Discriminator)四个核心部分。

其中,RVQs主要包括级联的八层量化器,在第一层量化器中以Hubert特征作为监督信号分离语义特征,后续各层量化器输出特征累加即为声学特征。

2. 瓶颈层和混淆层(Bottleneck & Shuffle)

如图4所示,瓶颈层被用于特征降维表征和正则化处理。混淆层对声学特征进行固定时间窗范围内的随机打乱重置,从而提升特征复杂度,确保内容窃取攻击者即便借助SOTA的语音识别(ASR)模型,也无法从声学特征中强行提取出语义信息。最终,经过解缠和混淆双重保护的音频可以有效抵御人耳或者模型两方面的恶意语音内容窃取。

3. 伪造检测器(Deepfake Detector)

最近研究表明Transformer分类器在伪造检测方面的潜力[4],SafeEar框架的伪造音频检测后端设计了一种仅基于声学输入的Transformer-based分类器,采用正弦、余弦函数交替形式对语音信号在时域和频域上进行位置编码。该分类器的主要结构如图5所示,包括编码器、池化层和全连接层等部分。

150万条多语种音频数据!浙大清华发布语音伪造检测框架SafeEar,兼顾隐私保护|CCS 2024

图5 基于声学特征的语音伪造检测分类器。

4. 真实环境增强(Real-world Augment)

鉴于现实世界的信道多样性,采用具有代表性的音频编解码器(如G.711、G.722、gsm、vorbis、ogg)进行数据增强,模拟实际环境中带宽、码率的多样性,以推广到不可见通信场景。

实验结果

伪造检测效果

本文选择了八个代表性的基线方法,其中包括端到端检测器(AASIST[5]、RawNet2[6]、Rawformer[7])和串行检测器(LFCC+SE-ResNet34[8]、LFCC + LCNN-LSTM[9]、LFCC+GMM[10]、CQCC+GMM[10]、Wav2Vec2+Transformer),测试数据集采用语音伪造检测代表性数据集ASVspoof2019[11]和ASVspoof2021[12],实验结果如表1所示。

SafeEar在信息损失的情况下,仍能实现较为优越的检测效果,在同类型的串行检测器中达到最低等错误率(3.10%),且优于部分端到端检测器。

150万条多语种音频数据!浙大清华发布语音伪造检测框架SafeEar,兼顾隐私保护|CCS 2024

表1 整体伪造检测效果对比

隐私保护效果

对于隐私保护效果,本文讨论了具有不同能力的三类主要攻击者,包括Naive content recovery adversary(CRA1)、Knowledgeable content adversary(CRA2)和Adaptive content adversary(CRA3),通过语音识别(具有代表性的ASR模型和开源ASR API)准确率评价隐私保护的效果。

由于解耦出的声学特征具有信息损失性,攻击者无法有效恢复或重建语音内容,从而证明该方法具有隐私保护能力。同时,论文通过用户测试体现出人耳与机器在内容隐私恢复上均具有较高难度。部分实验结果如下。

150万条多语种音频数据!浙大清华发布语音伪造检测框架SafeEar,兼顾隐私保护|CCS 2024

图6 训练过程中验证集上词错误率变化曲线(CRA1)。可见ASR模型(Conformer、Bi-LSTM)对于SafeEar保护后的语音始终无法识别,WER曲线保持过高数值且震荡;而对于完整音频,ASR模型可迅速收敛并在验证集上取得极低的WER

图7 真实的用户调研表明,ASR模型被认为能够有效识别完整音频(高达Original: 8.99),而对于SafeEar面对不同攻击者等级下的识别效果始终很差(低至CRA2: 1.31、CRA3: 1.31);同理人耳听感的清晰度分别为Original: 9.38、CRA2: 1.10、CRA3: 1.60。当用户模拟攻击者尝试恢复语音内容时,在SafeEar保护下的WER始终高于96.37%

音频示例

原始音频 / SafeEar保护后的音频:

总结与展望

本文在保护语音内容隐私的同时实现了语音深度伪造检测,该方法可被应用于实时语音通话环境,具有优越的检测准确性和泛化能力。

同时,该工作构建了涉及五种主流语言(英语、中文、德语、法语、意大利语)、多声码器(Parallel WaveGAN, Multi-band MelGAN, Style MelGAN, Griffin-Lim, WORLD, DiffWave)的语音伪造检测数据集CVoiceFake,最新数据集涵盖150万个语音样本及其对应转录文本,可作为语音伪造检测和内容恢复攻击的基准数据集。

SafeEar也提供了一种新颖的隐私保护串行检测框架,能够在其他相关任务中沿用和拓展,进而推进智能语音服务安全化发展。

参考资料:

[1] Chaiwongyen A, Songsriboonsit N, Duangpummet S, et al. Contribution of Timbre and Shimmer Features to Deepfake Speech Detection[C]. 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). Chiang Mai, Thailand: IEEE, 2022: 97-103.

[2] Li M, Ahmadiadli Y, Zhang X P. A Comparative Study on Physical and Perceptual Features for Deepfake Audio Detection[C]. Proceedings of the 1st International Workshop on Deepfake Detection for Audio Multimedia. Lisboa Portugal: ACM, 2022: 35-41.

[3] Zhang, X., Zhang, D., Li, S., Zhou, Y. and Qiu, X., 2023. SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language Models. International Conference on Learning Representations (ICLR) 2024.

[4] Liu, X., Liu, M., Wang, L., Lee, K.A., Zhang, H. and Dang, J., 2023, June. Leveraging positional-related local-global dependency for synthetic speech detection. In ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 1-5). IEEE.

[ 5] Jung J weon, Heo H S, Tak H, et al. AASIST: Audio Anti-Spoofing using Integrated Spectro-Temporal Graph Attention Networks[J]. arXiv, 2021.

[6] Jung J weon, Kim S bin, Shim H jin, et al. Improved RawNet with Feature Map Scaling for Text-independent Speaker Verification using Raw Waveforms[J]. arXiv, 2020.

[7] Liu X, Liu M, Wang L, et al. Leveraging Positional-Related Local-Global Dependency for Synthetic Speech Detection[C]. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Rhodes Island, Greece: IEEE, 2023: 1-5.

[8] Pal M, Raikar A, Panda A, et al. Synthetic Speech Detection Using Meta-Learning with Prototypical Loss[J]. arXiv, 2022.

[9] Wang X, Yamagishi J. A Comparative Study on Recent Neural Spoofing Countermeasures for Synthetic Speech Detection[J]. arXiv, 2021.

[10] ASVspoof2021 challenge organizers. ASVspoof 2021 Baseline CM & Evaluation Package[EB/OL]. 2021. https: //github.com/asvspoof- challenge/2021.

[11] Yamagishi J, Todisco M, Delgado H, et al. ASVspoof 2019: Automatic Speaker Verification Spoofing and Countermeasures Challenge Evaluation Plan[R]. ASV Spoof, 2019: 13.

[12] Delgado H, Evans N, Kinnunen T, et al. ASVspoof 2021: Automatic Speaker Verification Spoofing and Countermeasures Challenge Evaluation Plan[J]. arXiv, 2021.

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-27 14:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...务、跨境协同、基层覆盖方面存在显著短板,数据安全与隐私保护挑战突出。二、广西精准招引优势AI企业的对策(一)强化政策靶向引导,构建精准招引体系构建需求导向型体系。针对物流、农
2025-09-15 14:32:00
清华年度最大校园招聘会启动
...人单位为国际学生提供就业岗位。此外,学校近期推出了多语种一对一职业咨询服务,70余位个体咨询师为国际学生提供中、英、日等多语种职业咨询。(完)
2024-03-15 22:37:00
国家科学技术进步一等奖,为何给了这家AI国家队
...)信息技术有限公司等高校及行业领军企业联合完成的“多语种智能语音关键技术及产业化”项目荣获2023年度国家科技进步奖一等奖。据悉,这是深度学习引发全球人工智能浪潮以来,过去十
2024-06-25 09:30:00
...标,恐怕是一个对英语国家——尤其是英语移民国家以及多语种国家有明显倾向性的指标。因为,从泰晤士高等教育官网给出的评分方法来看,这个“国际展望”的指标,主要就是看一个大学里有多
2024-10-13 09:51:00
“讯飞同传麦克风”全球首发 让多语言会议无障碍沟通
...传麦克风”,致力于打造“听得清、译得准、记得全”的多语言交流体验,为全球用户带来多语言会议的全新范式。指向型麦克风 拾音更清晰全球经济一体化进程加速,跨国协作、国际会议、跨境
2025-11-07 11:47:00
老外桂林旅行遭遇痛点 业内直指产业发展诱因
...保护了客人的隐私,同时也不影响其它游客。 5. 此外,多语言讲解资源匮乏。景区讲解服务中英文导览种类单一,小语种导游数量严重不足,导致外宾接待保障能力欠缺,难以满足国际游客
2025-05-29 11:19:00
重磅!“国奖”放榜:十年来AI 领域首个国奖一等奖花落科大讯飞
...小米等科技公司出现,而科大讯飞作为第一完成单位的“多语种智能语音关键技术及产业化”项目,更是斩获国家科学技术进步奖一等奖。这是深度学习引发全球人工智能浪潮以来,过去十年人工智
2024-06-26 09:15:00
小语种国家如何拥抱AI 全球专家论道WAIC
...支持55个语种语音合成,效果业内领先。至今,科大讯飞多语种技术已为华为、比亚迪、海尔等中国企业的1.2亿台套设备提供语音交互支持,涵盖23种语言,在非洲、东南亚等国家实地落地
2025-07-29 00:22:00
讯飞听见,中关村论坛年会的“五届元老”非它莫属
...来自中外的现场嘉宾一边演讲,位于两侧的讯飞听见同传多语种系统一边将嘉宾发言进行中英文实时转写和翻译,帮助来宾无障碍交流……在2024年中关村论坛年会亮相的科大讯飞的讯飞同传技
2024-05-01 12:00:00
更多关于科技的资讯:
中国蓝新闻讯 前不久,浙江省公布首批96家“科技新小龙”企业名单,涵盖新一代信息技术、生物医药、新材料等前沿领域。这些企业虽年轻
2026-01-08 20:27:00
中国蓝观察丨杭州也要造火箭!看商业航天在浙江开启新篇
中国蓝新闻讯 今天(1月7日),北京箭元科技有限责任公司(以下简称“箭元科技”)中大型液体运载火箭生产试验及总装总测基地正式落地浙江
2026-01-08 20:57:00
多彩贵州网讯鼠标轻点,数十公里外企业的用电异常数据实时呈现,以往需耗时多日现场排查的风险隐患,如今在几分钟内便可被系统自动识别与锁定
2026-01-08 21:59:00
江南时报讯 近年来,丹阳农商银行以“变中求进、守正创新”为主线,加快推进数字化转型,有力促进了数字金融协同发展,为普惠金融服务注入新动力
2026-01-08 22:32:00
合肥“机器人大学”新增“家庭课”:VR手把手教学,三个月“毕业”上岗
大皖新闻讯 家里乱了,谁来整理?这些日常家务,未来可能交给机器人。近日,合肥市具身智能机器人数据采集训练场在原有场景基础上
2026-01-08 18:05:00
三国何以“常青”?灵犀互娱发起游戏行业首个三国文化论坛
1月5日,中国游戏行业首个聚焦三国题材的文化论坛——“常青三国:重构、创新与全球化”在广州举行。论坛由南方周末报社与阿里巴巴灵犀互娱联合主办
2026-01-08 17:01:00
都匀佳速健诊所招新媒体运营 五险一金+弹性工作制
多彩贵州网讯(记者雷小露 裘金鉴) 为进一步扩大品牌影响力,推动科技医疗技术的广泛传播,都匀市佳速健健康管理有限公司(都匀佳速健诊所)现面向社会公开招聘新媒体运营专员1名
2026-01-08 17:05:00
【宅男财经|专家面对面】中新经纬1月7日报道称,蔚来创始人、董事长李斌表示,汽车行业和AI行业都在抢铜、银等原材料,原材料涨价还没有传导到终端售价
2026-01-08 14:13:00
中新经纬1月8日电 (谢婧雯)8日,“全球大模型第一股”智谱在港交所主板挂牌上市,发行价为每股116.20港元。智谱开盘价报120港元/股
2026-01-08 14:13:00
记者昨日从中国科学院获悉,“面向空间应用的锂离子电池电化学光学原位研究”项目已在中国空间站内开展,神舟二十一号航天员乘组共同在轨操作该项目实验
2026-01-08 15:08:00
上海晶珩ED-HMI3120:树莓派让工业控制可视化更简单
HMI3120工业人机界面是上海晶珩(EDATEC)最新推出的产品系列,内置树莓派CM5计算平台,融合了高性能处理能力
2026-01-08 15:23:00
26年深耕·千万青年共创:学院奖,链接青年力量与商业未来
当茅台王子酒的“王子音乐节”在高校掀起青春热潮,当可比克实践赛涌现出上千份青年创意实战方案,当江中健胃消食片通过校园共创唤醒品牌年轻记忆——中国大学生广告艺术节学院奖早已超越单纯的赛事维度
2026-01-08 15:25:00
确权破局护品牌,明远领航“大朴”启新程
随着国货家居品牌进入高质量发展阶段,维护品牌核心资产的唯一性已成为企业发展的重中之重。近日,家纺领军企业明远集团正式宣布
2026-01-08 15:26:00
百年守护 因AI而“声”动
2025年,故宫博物院迎来建院百年。 这一百年,是实物守护的百年——从战火中南迁万里护送国宝,到一代代匠人在红墙内对《五牛图》的精心修复
2026-01-08 16:39:00