• 我的订阅
  • 科技

AI识别真假唱,如何“用魔法打败魔法”

类别:科技 发布时间:2023-12-06 05:47:00 来源:每日看点快看

本文转自:新华日报

AI识别真假唱,如何“用魔法打败魔法”

频谱波声音语音识别。(视觉中国供图)

□ 本报记者 蔡姝雯 张宣

近日,音乐博主“麦田农夫”通过专业软件进行分析,质疑知名乐队五月天在上海演唱会的音频中部分歌曲为假唱或真假混唱。12月4日,相信音乐公司发表声明称,“五月天在巡回演出中不存在任何假唱行为”,并表示正积极配合相关执法部门开展调查工作。

是否存在假唱,目前还没有官方的调查结果,但网络上关于AI鉴别真假唱的讨论十分热烈。AI是怎样进行鉴别的?结果是否靠谱?声音识别技术目前发展到哪一步了?记者采访了相关人工智能技术专家。

真唱还是假唱,AI鉴定有几招?

“用AI分析假唱,主要是基于声音分析和模式识别技术。”南京图灵人工智能研究院产品研发负责人阚德军介绍,此类分析通常从几个方面入手,比如声音特征匹配、声音波形的分析、背景噪音和杂音的分析,以及呼吸声和其他生理声音的分析等。

从声音特征匹配来看,AI系统会比较现场表演音频和录音棚音频的声音特征,如果音调、节奏、声音纹理等高度相似,那么就很有可能是使用了预录音。

声音波形的分析,基本上也是拿现场表演中声音的波形和录音棚版本或修音版本去比较。没有人的现场表现会毫无瑕疵,所以肯定会有微小的变化,但是录音棚里录制时,演唱中的呼吸声和微小声音波动,通常会被编辑掉。所以,两者如果特别完美贴合的话,很大概率是出现了假唱的情况。

演唱会现场环境复杂,会伴随着背景噪音和杂音,比如观众的喝彩声等。对背影噪音和杂音的分析,就是看看这些声音在现场表演的音频中是否缺失,如果杂音的连续性不够,或者大规模地缺失噪音,假唱的可能性就会更高一点。

再看呼吸声和其他生理声音的分析。现场表演中,歌手的呼吸声和其他生理声音,比如咳嗽、喘气、噎气等,都是正常生理反应,不可避免,这种情况在唱跳歌手身上尤其容易发生。如果整段表演里面完全没有这些声音,假唱的概率就很大。“有些精心处理过的音频也可能掺杂这类声音进去,那就得看这类声音的连续性如何,整体来说,除非音频做得非常精细,不然AI还是能给出一个大方向的判断。” 阚德军说。

用AI鉴定歌手是否假唱,还有“技术流”网友提出嘴型识别、机器学习模型等方法。比如利用视频处理技术,AI分析歌手嘴型与发声是否同步,检测嘴型与声音是否匹配;使用机器学习模型,根据历史数据训练AI识别真唱和假唱的差异,AI受到的训练足够多后就可以鉴定假唱。

对此,上海交通大学计算机系教授、思必驰公司联合创始人俞凯认为,AI进行声音的识别都是基于采集的声音信号,嘴型识别则需要采集图像信号,两者的区别是采集的信号不一样。由于嘴型识别的图像受光线影响较大,所以用来分辨真唱假唱还不是特别成熟。而用新的机器学习算法,的确已经可以达到比较精细的超越人的感知能力去分析声音、图像等。

“高技术”音频,AI也很难识别

“就目前的技术来看,AI有这个能力对假唱进行一定的鉴别,但如果要让它足够准确、达到法律鉴定的水平,那还达不到。”俞凯坦言,假唱真唱,可以通过数据进行一定的分析,但是准确程度还得看能够提供的数据量。

阚德军也认为,Al在分析歌手是否假唱方面具有一定的可靠性和准确性,但并不能保证100%的准确率。在实际应用中,可以作为一个辅助工具。尽管Al在这方面取得了显著进展,但仍有一些限制和挑战:“在嘈杂的现场环境中,识别真唱与假唱可能会受到干扰,影响准确性。目前的Al技术可能无法完全区分非常精心制作的假唱和一段截取的高水平的现场表演。”

歌手的现场表现可能会因情绪、环境和其他因素的影响而有所不同,这些客观原因造成的音质和音准的区别,也会导致出现一些AI以前没有遇到过的情况,技术人员也不可能预见或者穷举所有的未知情况,所以这对AI来说,也是一个挑战。

此外,技术是一把双刃剑。随着科技的进步,在一些场合为了演唱效果,有些歌手会选择调音,且调音技术越来越先进、花费越来越高,因此网络上常有“百万调音师”这样的调侃。

“有些精心制作的调音和假唱音频文件,逼真得很难去分辨,因为AI分析也是通过声音的各种特征和某些技术点去排查,如果音频文件做得足够逼真,特别是一些精心制作的呼吸声等生理现象,目前AI也识别不了。”阚德军打了个比方,就像从视频里抠图,如果逐帧去抠,做得足够完美,大家也可能辨别不出来。

由于AI识别一定是通过一些特征和痕迹去比对,那就意味着可以人为地制造这些特征和痕迹,只是做得高明不高明、逼真不逼真而已。从这点来说,也是对AI的一个挑战,就要看如何“用魔法打败魔法”——因为既然演唱水平可以通过技术“调音”,那么音频也应该能用更厉害的技术手段去量化和比较,有些人耳听不出来的“伪装”,在数据面前也许终究会露出原形。

总体而言,复杂的环境、技术的限制、刻意的“调音”“修音”,都是AI面临的挑战,在分析歌手是否假唱方面,AI具有一定的可靠性和准确性,但无法承诺百分之百的准确率。“目前来说,大多数情况下把它作为一个辅助工具,而非一个决定性的证据。”阚德军说。

AI听音,还能诊断机器和人

不管怎么说,AI对于声音的分辨能力要远高于人耳,因为人是比较主观的,人耳在听声音的时候可能不会特别关注环境音等一些细微的声音,AI则要精细得多,且“一视同仁”,能关注到所有声音类型和细节。

目前,我国已有关于假唱检测的相关专利申请。比如,杭州网易云音乐科技有限公司申请的“假唱检测方法、装置、电子设备及计算机可读存储介质”专利处于公布状态,该专利基于一种眼球特征检测方法,涉及人工智能技术领域。浙江大学申请的“一种基于机器视觉和语音信号处理相结合的假唱检测方法”专利已获授权,该方法对音频信号分帧并提取特征参数,对视频信号每帧处理并提取特征参数,在每个片段上单独分析音频和视频的同步性,以获得真唱或者假唱的结果。

“关于是否假唱的讨论,让AI声音识别应用软件浮出水面,但其实该技术并非为鉴别假唱而研发,它也应用于辅助医疗、智能制造等方面。”阚德军说。

比如关于呼吸声和其他生理声音的分析,在医疗领域的辅助诊疗方面已经有实际应用。有设备可以通过咳嗽的声音来判断、初步筛查是不是得了呼吸道疾病。由于不同病症的咳嗽声纹表现不一,AI需要识别出其中细微的差异,继而分辨出是哪种疾病引发的咳嗽,这种“听音识病”技术十分有难度。当然,该技术也会提醒使用者:“测试结果仅供参考,并不代表最终的结果,请以医学检测手段为准。”

此外,“AI听音”在工业上也有应用,比如在智能制造领域,有企业使用相关技术对发动机等机器的声纹进行检测。通过嵌入式声学识别传感器设备,收集发动机震动的声音的音波,再结合机器学习和频率分析,来判断发动机是否异常,存在什么隐患,是否需要提前保养和维修等。“未来,AI声音识别技术还会有更多的应用场景,可以帮助人类获得更高的生活品质,助力社会更高质量的发展。”阚德军说。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-12-06 09:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

孩子咳嗽时有怪声,这 3 种一定要警惕(附音频展示)
...音频,详细地把生活中最见的几种令家长担心的咳嗽声、呼吸声一一展示给大家,每一种声音的特点、产生原因、家庭护理和就医原则,全部说清楚。这份干货满满的文章,别忘了先收藏起来~犬吠
2023-11-29 09:12:00
开放式耳机没有好音质 开放式智能耳机领跑者 ——Cleer ARC II音弧,打破你的固有认知!
...,可以说是豪华配置了。这种音质下,乐器的音色、歌手的呼吸声、甚至音乐中的情感起伏,都能够被清晰地捕捉到,每一个细节都能够被呈现得更加细腻
2024-03-03 07:00:00
音与影的魔法红线:双Vivid标准带来的超高清之变
...准已经有了大量落地实践,为我们的眼与耳带来了全新的魔法盛宴。 今天我们就来聊聊,双Vivid标准这两条红线,是如何把复杂、多样的超高清产业凝聚起来的;其又如何通过标准化这个
2023-01-01 14:42:00
AI配音杀入游戏行业 以后我们操控的主角可能就叫小帅了
...锤了这个问题。播客中开发团队的音频设计师表示,除了呼吸声这种特殊内容由真人配音外,大部分配音都是AI完成的。原因嘛,他们说是“可以用更少的钱获得更专业的配音”。虽然他们认为使
2023-11-03 21:17:00
一款高效的音频剪辑软件
...显得如此迫切而必要——音频剪辑软件,它像一位神秘的魔法师,悄然改变着我们的听觉世界。这种软件犹如一只灵巧的魔法手套,在我们的操作下,能够灵巧地避开录音中重要与清晰的部分,准确
2023-09-27 10:40:00
三星与谷歌联手推出immf音频技术,家庭娱乐领域重大突破
...使设备制造商能够解释3D音频数据并在音频设备内部调整声音,从而让即使是标准的电视扬声器或家庭音响系统也能提供全方位的听觉之旅。IMMF音频技术的核心特点包括垂直音频、AI驱动
2023-11-11 15:46:00
配置升级,酣畅竞技,三星QN85Z带来身临其境的游戏体验
...eoQLED系列电视,而今天要为大家介绍的,就是被誉为光影魔法师的三星QN85Z主打量子点MiniLED电视。QN85Z量子点MiniLED电视
2023-12-12 12:19:00
三星IAMF空间音频技术确认今年投用,对标杜比全景声Dolby Atmos
...备制造商可以读取 3D 音频数据,便可调整音频设备中的声音,从而通过家中的标准电视扬声器或音箱,也可以获得“身临其境”的音频体验
2024-01-23 15:41:00
让“聋人”看到声音 行空板 —“AI助听器”
...上有各种各样的残障人士,这些人或不能说话,或听不见声音。聋人,是听力因先天遗传或后天人为因素而受损的残疾人,也叫听力障碍者,简称听障人。根据最近的全国人口普查统计,全中国大约
2024-01-12 12:00:00
更多关于科技的资讯: