• 我的订阅
  • 科技

AI识别方言困难!专家探索用算法度量方言差距,提议构建统一框架

类别:科技 发布时间:2023-10-26 18:05:00 来源:澎湃新闻

·确定一系列核心方言并为其建立自动语音识别(ASR)模型,当一种未知方言出现时,分析它距离这一系列核心方言中的哪些方言较近,就可以用合适的核心方言ASR模型识别出这种未知方言的内容。

·方言应用的窗口期大约是二三十年。AI识别方言的实际困难大,我国方言体系之间甚至每一类方言内部的地域差异都普遍存在,各地方言常以口语形式流传,缺乏对应文字,并且难以收集,可用于模型训练的方言语料数据偏少。

AI识别方言困难!专家探索用算法度量方言差距,提议构建统一框架

信也科技算法科学家倪博溢。

10月24日,第八届信也科技杯算法大赛总决赛上,9支人工智能队伍角逐,探索利用AI技术识别和还原语音数据中的方言信息,衡量不同方言之间的距离,推动智能语音识别技术发展。

方言距离是一个开放问题,例如人们通常在直觉上认为上海话与杭州话之间的距离比上海话和北京话之间的距离更近。从实用性来讲,距离越接近的两种方言,其自动语音识别引擎在交叉使用时也可以得到更好的效果。如此一来,利用少数核心方言的自动语音识别引擎来转写邻近的各种未知方言,就是方言ASR识别问题的潜在解决方案之一。

金融科技集团信也科技(NYSE:FINV)首席科学家王春平表示,本次大赛的目的是寻找数据驱动的最佳算法和模型,更好地理解方言和口音特征,提升用户体验;长期来讲,以核心方言来支持所有方言转写,找到最优的核心方言布局。

度量方言间的距离

我国幅员辽阔,人口众多,方言情况十分复杂,方言体系之间甚至每一类方言内部的地域差异都普遍存在。这导致在客户服务中,语音交流常常会遇到方言或口音挑战。

要将客服人员和客户沟通的过程中产生的大量语音数据进行完善的分析质检,就需要语音、NLP(自然语言处理)算法进行批量的处理、分析、质检。通常质检任务的第一步算法就是ASR转写。

但信也科技算法科学家倪博溢表示,ASR转写存在的一个实际问题是,通用ASR模型建立在普通话数据基础上,无法对方言进行准确转写。目前,商业解决方案还不能满足大部分方言的转写,大多数可用的汉语ASR模型要么不支持方言,要么只覆盖数量有限的方言。

理论上,最理想的解决方案是为每一种方言建立ASR引擎,只要有语音和对应的文字,就可以训练出每一种方言的模型,但这种方式成本高昂、耗时耗力。为一种方言单独建模,往往需要考虑该地区的方言是否较为统一、地区经济和科研实力是否允许。

倪博溢认为,工程上可行的方式是,首先确定一系列核心方言并为其建立ASR模型,当一种从未被AI识别过的方言出现时,分析它距离这一系列核心方言中的哪些方言较近,就可以用合适的核心方言ASR模型识别出这种未知方言。但是,“一种方言跟另一种核心方言究竟要多相似,才能用这种核心方言作为对照去识别其他方言,这是需要抉择的。”因此度量不同方言之间的距离是解决问题的关键。倪博溢表示,研究方言距离问题有助于进一步探索如何从语音层面建模方言、抽取方言特征、分析方言形成和演化机理,其结果也可以和传统方言分类方法做合理性的相互印证,并服务于更广泛的研究目标。

AI识别方言困难!专家探索用算法度量方言差距,提议构建统一框架

第八届信也科技杯算法大赛总决赛现场,选手在答辩。

那么方言之间距离的远近究竟要如何衡量?倪博溢表示,目前他们对方言的读音进行加权计算,得出两种方言在0-100之间的数值,代表距离远近,这是一个相对客观的指标。但判断不同方言的距离还有其他方式,此次信也科技杯算法大赛也是为了在思想碰撞中寻找衡量方言距离的优秀算法方案,拓展商用ASR接口的模型适用范围,推动核心方言引擎的布局,提高方言识别准确率。

方言底层逻辑+大模型

今年5月,Meta推出大规模多语言语音 (MMS) 模型,将文本转语音和语音转文本技术从大约100种语言扩展到1100多种,还可以识别4000多种口头语言。在国内,抖音上线了地方方言自动翻译功能,“一键”可将粤语、闽语、吴语、西南官话、中原官话等方言视频转化出普通话字幕。科大讯飞的方言识别语种扩充至23种,探索智能语音助力方言保护的路径。

语言是人类的特有属性,也是文化的载体。有的语言甚至只有少数几人掌握,一旦这些老人去世,这种语言也就消失了。语言一旦消失,文化无处可寻。

“方言是一个宝库,里边蕴含的东西太多了。如果只剩下普通话,就缺乏了语言的乐趣。但目前方言正在消失,方言应用的窗口期大约是二三十年,AI识别方言的实际困难很大,经济价值不大,所以很少有人愿意推动做这件事。”倪博溢表示,各地方言常以口语形式流传,缺乏对应文字,并且难以收集,可用于模型训练的方言语料数据偏少。今天已经拥有了互联网数据,如果能够取消数据获取的壁垒,将语音数据开放成公共资产,对研究者而言是一大利好。

尽管信也科技金融业务带来的客服语音积累了方言语料,但从大量语音中提取方言数据又是另一个挑战,从10000小时的语音数据中找出100小时的方言犹如大海捞针。倪博溢表示,识别方言的距离有助于解决这一难题,但这只是AI识别方言的解决方案之一,仍有其他解决方案可以探索。

在倪博溢看来,AI识别繁多的方言,不能依靠逐个击破,而是要研究方言的底层逻辑和特点,构建统一识别框架。同时大模型的预训练可以自我学习,探索借助大模型技术提高识别准确性。倪博溢提出一种设想,由于音标是固定的,能否利用国际音标序列标注各种方言,构建语言模型识别方言,他认为这或将解决绝大多数方言没有对应文字的问题。他也期待通过这次比赛建设长榜赛题(即持续性常态赛题,参赛者可长期打擂台),支持社区共建语音语料和模型算法,以较低成本服务于方言保护。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-10-26 21:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

vivo发布自研大模型,为用户和开发者带来诸多惊喜
...它具备四大核心能力:语音合成、音色复刻、语音翻译和方言自由说。语音合成能将文本转化为逼真拟人的语音,支持多语言及方言;音色复刻则只需用户一句话即可复制音色;方言自由说功能不仅
2024-10-14 01:53:00
首个支持普通话和方言混说的TTS大模型:河南话、上海话说得溜
...通话上的效果已与真人几乎无异,但面对中国纷繁复杂的方言,TTS 大模型却鲜有涉猎,训练一个统一的中文各方言语音合成大模型是一项极具挑战的任务。行业痛点与技术瓶颈当前,语音合成
2024-08-14 09:38:00
清华、北大等发布Self-Play强化学习最新综述
...中第一作者张瑞泽为清华大学硕士,主要研究方向为博弈算法。通讯作者为清华大学电子工程系汪玉教授、于超博后和第四范式研究员黄世宇博士。自博弈(self-play)指的是智能体通过
2024-09-10 13:38:00
NeurIPS Spotlight|从分类到生成:无训练的可控扩散生成
...、清华大学等机构的研究团队联合提出了一种全新的统一算法框架,名为无训练指导(Training-Free Guidance
2024-12-06 09:52:00
国内首个极速超拟人交互向全民开放 可在星火大模型中体验
...结合讯飞多维度语音属性解耦表征训练模块,实现情感、方言、韵律、音色等的可控,实现了对语音交互的拟人化升级。”AI也有“情感共鸣”共情力对于大模型是一项重要的基础能力,在未来的
2024-09-03 11:00:00
中科大/华为诺亚出手!芯片性能≠布局评分,EDA设计框架全面开源
...数据集。随着ChiPBench的上线,作者也发现了当前芯片布局算法存在很多不足,提醒相关研究人员是时候研发新算法了。芯片设计流程面临挑战根据“摩尔定律”,集成电路(IC)的规
2024-08-13 09:40:00
AI行业应用:数据编织助力AI应用训练突破
...模型很火,每个企业都想分一杯羹,但是过程中涉及到的算法、数据等不是轻而易举就能实现的。其中,数据的传输和管理是个大问题。本文围绕AI应用训练的瓶颈展开叙述,对AI训练难点进行
2023-06-08 09:00:00
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...模态大模型与人类的意图相对齐、研究如何通过不同对齐算法让模型输出更符合人类预期和价值观具有重要意义。该框架的独特之处在于:1)Align-Anything 框架支持文本、图像
2024-10-18 09:47:00
“复活”亲人、“对话”逝者……走近AI世界中的青年网络入殓师
...就相对困难。此外,林宇还表示,因为地区、环境差异,方言带来的困难尤为突出。“几天前的一单,一位逝者的口音不仅是方言,还是小众方言,大模型做不出。尝试了很多算法,又找了当地方言
2024-04-03 18:19:00
更多关于科技的资讯:
本报讯(全媒体记者左阳天)指尖滑动屏幕,货物飞速流转,一场持续了一个多月的年度消费盛宴,正悄然重塑江西消费者的购物车与江西商家的生产线
2025-11-13 06:45:00
新闻纵深|“人机共生”让绿钢更绿
河钢集团石钢公司五十六个智能模型构建“数字工厂”“人机共生”让绿钢更绿阅读提示订单排产从48小时压缩到30分钟,钢水样品2分40秒完成27种元素分析
2025-11-12 08:14:00
厦门网讯(厦门日报记者 沈彦彦)11月11日,京东发布2025年“双11”购物狂欢节(以下简称“双11”)福建消费热点相关情况
2025-11-12 08:22:00
厦门网讯(厦门日报记者 沈彦彦)昨日,抖音美洋官方旗舰店的直播间里热闹非凡,主播“上链接”话音刚落,新品针织衫链接的下单人数瞬间破百
2025-11-12 08:22:00
厦门网讯 (厦门日报记者 邬秀君)顶峰人文影视艺术会客厅项目签约金额20亿元;同文文化艺术影视科技街区项目签约金额16亿元
2025-11-12 08:22:00
厦门网讯 (文/厦门日报记者 谭心怡)在思明区禾祥西路,一个红色小窗口内闪着金元宝形的灯,客人抽完签、摇响铃铛、再把签递进窗口——冰激凌就会从里面递出
2025-11-12 08:22:00
厦门软件园企业:科技赋能 打开光影新视野
借助XR虚拟拍摄技术,可实现场景自由切换。图为厦门火炬元宇宙(XR)公共技术服务平台。(甚妙视觉 供图)厦门网讯 (厦门日报记者 林露虹 通讯员 管轩 雷飏)光影闪耀鹭岛
2025-11-12 08:22:00
●席恺前不久,星巴克以40亿美元出售中国业务60%股权。消息一传出,众人的目光很快聚焦在瑞幸咖啡上:这个总部设在厦门的咖啡品牌
2025-11-12 08:22:00
鲁网11月11日讯(记者 赵洪斌 吴美琳)11月11日,德州扒鸡®美食城三八路店重装开业,焕新启幕,美耀州城!溯源四十载
2025-11-12 08:43:00
立冬时节,寒意逐渐加重。11月7日,记者走进沧州热力有限公司热网调度中心,只见一块覆盖整面墙壁的智慧大屏格外醒目,沧州智慧热力管理平台正高效运行
2025-11-12 08:57:00
记者走基层|雄安图书馆迎来“新员工”
机器人馆员与小读者热情对话互动,数字人馆员“图小安”为读者推荐书籍,“爱心智送”机器人载着图书穿梭在图书馆内,无人驾驶送书车定时出发往雄安人工智能产业园等点位送书……11月3日
2025-11-12 08:59:00
2025网聚美好安徽 |“多面手”“大力士”……江淮前沿技术协同创新中心机器人“天团”来了
大皖新闻讯 11月11日,“皖美十四五 再启新征程”2025网聚美好安徽网络主题活动来到江淮前沿技术协同创新中心,采访团在这里邂逅了许多形态各异
2025-11-12 09:01:00
从秸秆到新材料,圣泉“链”就产业生态新格局|链上济南项新行
编者按:“十五五”规划建议中提出,提升产业链自主可控水平,强化产业基础再造和重大技术装备攻关,滚动实施制造业重点产业链高质量发展行动
2025-11-12 09:19:00
2025青岛虚拟现实创新大会|中科曙光:为“VR+AI”构筑强大、稳定、绿色的算力基石
鲁网11月11日讯 (记者 刘亮亮 刘晓伟)如果说VR/AR构建了通往数字世界的“大门和窗口”,那么AI就是让这个世界变得“可感知
2025-11-12 09:22:00
知名作家张德芬入选福布斯中国华人精英 Top100
近日,知名畅销书作家张德芬,凭借在心理学研究深耕、教育普及落地及文化出海传播三大领域的卓越成就,成功荣登 “2025 福布斯中国最具影响力华人精英TOP100” 榜单
2025-11-12 10:03:00