• 我的订阅
  • 科技

标贝科技GPT语音助手测评:看语音大模型如何重塑语音交互体验

类别:科技 发布时间:2024-01-10 17:00:00 来源:砍柴网

随着AI技术的不断进步,语音助手已经融入了我们生活的方方面面。同时在大模型落地千行百业的大潮之下,语音助手也快速卷入AI革命的浪潮中。

GPT大模型作为一种强大的语言生成模型,通过语言理解、生成能力和上下文记忆能力,不断地自我完善和进化,让语音助手变得更加聪明和人性化,提供更加精准的服务。音色作为语音助手与用户交互的重要元素,其质量的好坏直接影响着用户体验。

近期,标贝科技借助自研的语音合成测评系统,从音频音色的真实度、发音准确率、副语言表达三个维度,对几款主流GPT语音助手进行了全面的测评,深入了解当前GPT语音助手的合成音色质量,给用户提供更多的选择依据。

标贝科技GPT语音助手测评方案

1、测评音频&内容

(1)所有音频均以与GPT对话的形式录制采集,每个音色选择了20条音频,每条音频时长30-40s左右;

(2)音频的内容涉及故事、美食、演讲、诗歌、说明、新闻、客服等方面,采集时会给GPT明确话题和时长要求,内容由其自由发挥,因此本次测评每条音频的内容并不一致,可能会对结果的一致性产生一些影响。

2、测评标准

本次测评需要分三个维度给音频打分、标注,包括真实度、副语言、准确率。

3、测评人员

此次测评由12位人员执行,其中男性5人,女性7人,年龄均在20-35之间,所有人员都经过培训和测评训练,对标准有统一清晰的认知。

4、评测结果

(1)得分汇总

标贝科技GPT语音助手测评:看语音大模型如何重塑语音交互体验

(1)所有音色的真实度得分都在4分以上,说明GPT语音助手非常接近真人发音水平;其中,cove这个音色的真实度最高,达到4.56分;

(2)每句话副语言(如换气、重音、停顿等)平均出现的频率在3次以上;

(3)每句话出现的副语言频率与音色的真实度呈正相关。即副语言频率越多,声音给人的感受越真实,越像真人发音。

●副语言分析

本次测评统计了每个句子中出现的副语言元素以及其总共出现的频率,频率排前五的副语言为换气、重音、停顿、拖音、插入语气词。正是这些副语言为合成音频增加了音色的真实度。

标贝科技GPT语音助手测评:看语音大模型如何重塑语音交互体验

(1)换气

换气是一种语音声学特性,指的是在发音过程中声带之间存在一定的空隙,允许一些空气通过声带传递,产生柔和的、带有轻微气息的声音。在语音合成中加入换气效果,就是模仿了人类说话时的呼吸模式。

本次测评中的GPT语音助手都使用了换气效果,在声音中增加了一种自然、拟人化的感觉,听起来也更加真实自然。

(2)重音和拖音

重音和拖音是为了强调语义内容的手段,通常是通过音调和时长的改变来增强语音表达的自然度和情感丰富性。

本次测评结果真实度较高的音频中,均精确地使用了重音和拖音来突出关键信息(通常会根据上下文内容精确到字),如演讲中强调主题或故事中加强紧张情节。

(3)停顿

在合成语音中引入适当的停顿,可以提高语音的自然度和表现力。测评音色中,我们发现,停顿的长度和位置的调整可以根据文本内容、语气和情感进行差异化处理,使语音听起来更自然而不生硬。如表示犹豫时,会适当增加停顿时长,表达激动内容时,会减少停顿时长。

(4)语气词

语气词指的是在语音中用来表达语气、情感或语言交际功能的词语或短语,常见于口语交流中,如啊、嗯、哦、唉、呃、嘛、吧、啊、笑声等。这些词语通常不是用于传递严格的字面意义,而是用来调整语音的情感色彩、语调、韵律或表达说话者的态度。

本次测评中,语音助手的语气词主要有两个方面的表现:一是对输入的文字进行了口语化改写,适当增加了语气词的部分;二是在声音表现方面,语气词能够做到真实不生硬。

(5)其他

测评结果还发现,GPT语音助手还使用了其他副语言元素,如重复、自我修正、自动加入儿化效果等,都是为了模仿真人的发音特点来实现自然自发的语音效果。

●准确度分析

本次测评的GPT语音助手发音整体的准确率很高,错误出现频率较低。但在处理一些特殊文本时,还会出现一些错误,错误主要分为两类:

第一类与中文的语言特点相关,如TN类文本、多音字、变调等,这类问题如果读音不准确,在一定程度上会影响句子的可懂度,还需要进一步完善;

第二类问题是语音合成中常见的一些声学模型问题,如多字、漏字等,这类问题在本次测评中出现的频率较少,对可懂度的影响也不大。

标贝科技GPT语音助手测评:看语音大模型如何重塑语音交互体验

5、结论

●语音真实度

GPT语音助手在语音真实度方面表现出色,音色普遍接近真人发音,平均得分超过4分。这显示了其在模拟自然语音方面的先进技术。

●副语言表达

测评发现了GPT语音助手在使用副语言元素(如换气、重音、停顿等)方面的效果,这些元素为合成音频增添了更多的真实感和生动性。

●发音准确性

在发音准确度方面,GPT语音助手展现了较高的标准。虽然在处理特殊文本时偶有发音错误,但整体准确率保持在一个较高水平,这对于理解和交流至关重要。

●改进空间

尽管当前成绩显著,但在某些方面仍有改进空间。特别是在处理多音字和语音合成模型中常见的问题方面,需要进一步优化以提高整体用户体验。

基于本次对GPT语音助手的多维度测评结果,标贝科技依托核心的语音大模型迁移学习和深度神经网络技术,推出自然对话语音合成数据库以及自然对话合成音色解决方案,最大程度还原真人说话时的语气词、吸气声、停顿、拖音等副语言细节,让语音助手变得更加拟人化,提供自然、真实的人机对话服务。

标贝科技自然对话语音合成数据库

标贝科技自然对话语音合成数据集完成对数据库的音字标注、韵律标注、情感/口语化行为标签标注,供算法优化直接使用。

标贝科技GPT语音助手测评:看语音大模型如何重塑语音交互体验

标贝科技自然对话语音合成方案

标贝科技自然对话语音合成解决方案的核心在于通过分析大量真实语音数据,提取真人说话时的音色、语调、情感等特征,以提高其对副语言现象的建模能力。在合成语音时,将这些特征复制到机器生成的语音中,从而使得合成的语音能够更加自然、真实地表达说话者的意图和情感。

欢迎对以上数据集和方案感兴趣的行业伙伴联系我们~返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-01-10 18:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

探索AI时代的清洁机器人 | 云鲸携双目视觉及语音大模型技术首秀AWE,展示科技创新实力
...最新探索成果,包括AI立体双目视觉技术和NarGPT多模态语音大模型。据了解,云鲸一直坚持高研发投入,长期深耕机器人底层技术,目前已开始将大模型技术嵌入到产品研发中。位于扫地
2024-03-16 19:00:00
科大讯飞星火语音大模型正式发布
...升,数学、语言理解、语音交互能力超GPT-4Turbo;星火语音大模型正式发布,首批37个主流语种效果超过OpenAIWhisperV3
2024-02-01 10:07:00
语音能力再突破!讯飞星火语音大模型即将发布
...型V3.5升级发布会即将举行,会上将同步发布讯飞星火语音大模型, 此外还将发布开源大模型等。2023年5月6日,科大讯飞正式发布了讯飞星火认知大模型,可以基于自然对话方式完成
2024-01-29 15:57:00
国内首个端到端语音大模型将上线,人工智能也要有“情商”
...迭代更新。西湖心辰在今年8月推出了国内首个端到端语音大模型“心辰Lingo”,该模型具备实时打断、实时控制能力,以超拟人的互动方式,让对话更加生动、直观。所谓端到端语音大模型
2024-09-05 10:07:00
科大讯飞多语种技术,提供超1亿分钟公益服务
...语种冠军及7个语种非受限赛道冠军;2024年,讯飞星火语音大模型的首批37个主流语种的语音识别效果超过OpenAI最新语音大模型Whisper V3
2024-05-08 15:08:00
大模型重塑版讯飞输入法来了!能懂每个人的AI输入
...在此之上,搭载着讯飞星火端侧输入大模型、讯飞星火语音大模型的讯飞输入法14.0亮相,再次让人眼前一亮。讯飞输入法14.0的”AI输入增强“可以直接让输入法“猜你喜欢”,输入上
2024-10-29 09:55:00
端到端同传国内首个!科大讯飞星火同传语音大模型发布:领先Gemini 2.0、GPT-4o
快科技1月15日消息,今日,科大讯飞星火同传语音大模型正式发布,这是国内首个具备端到端语音同传能力的大模型。相较于讯飞此前的翻译技术,该模型在全场景下的翻译效果提大幅提升,端到端
2025-01-15 10:54:00
讯飞星火赋能千行百业,科大讯飞亮相世界智能产业博览会
...专用领域,各个垂直行业就有可能实现超越,目前星火语音大模型已在37个主流语种实现超越。刘庆峰还在现场透露,就在展会的几天后,6月27日,科大讯飞将发布讯飞星火V4.0,全面对
2024-06-21 10:19:00
全国产算力平台“飞星一号”的首个成果发布:讯飞星火V3.5来了
...等“打工神器”获得台下一阵掌声点赞。正式发布星火语音大模型“大模型带来了语音技术发展的全新机会。”刘庆峰强调,让机器具备学习、推理和决策的能力,就是认知大模型要干的主要工作。
2024-01-30 22:41:00
更多关于科技的资讯:
用AI技术为青少年心理“把脉”!这一项目成功入围2026年度河南省科技攻关项目
大河网讯 近日,河南省科学技术厅公示 2026年度河南省科技攻关拟立项项目,由科创联达(河南)科技有限公司与中原工学院联合申报的“多模态融合与大语言模型驱动的青少年心理健康智能监测研究”项目入选
2026-01-20 22:45:00
张宣科技:科技驱动打造绿色低碳新能源标杆
图为张宣科技技术骨干正在对水系统设备进行全面巡视检查。于飞摄河北新闻网讯(王杨、马薇)打造全球领先的绿氢绿能耦合冶金示范
2026-01-20 17:17:00
聚焦临沂两会」临沂市政协委员许金龙:以科技创新引领标志性产业链高质量发展
鲁网1月20日讯“抢抓人工智能战略风口,以科技创新为核心引擎赋能产业升级,推动我市标志性产业链向高端化、智能化、绿色化方向提质进阶
2026-01-20 17:23:00
中国消费者报北京讯(记者裴莹)1月19日,荣耀与泡泡玛特合作推出的“荣耀500 Pro MOLLY 20周年限定版”手机正式发布
2026-01-20 17:30:00
中国消费者报北京讯(记者孙蔚)近日,转转集团发布《2025二手消费年度洞察》(以下简称报告)。报告显示,05后成为二手消费新生力量
2026-01-20 17:30:00
中国消费者报北京讯(记者桑雪骐)1月19日,海信召开2026 RGB-Mini LED影游旗舰E8S新品发布会,正式推出影游旗舰E8S系列电视
2026-01-20 17:30:00
春节将至 在中国空间站怎么吃年夜饭?
中国消费者报报道(记者桑雪骐)航天员的手指轻轻按下一个特制设备的启动键,28分钟后,伴随着设备上的按键灯闪烁,取出的不是常见的复热食品袋
2026-01-20 18:00:00
大皖新闻讯 1月20日,记者从阜阳市商业局获悉,为全力推动“超级皖”美食争霸赛半决赛活动氛围,该市将发放60万元消费券
2026-01-20 18:14:00
宜兴市徐舍镇:厚植沃土育“小巨人”
近年来,徐舍镇持续优化营商环境,强化政策引导与服务保障,积极构建富有活力的产业生态,通过搭建产学研对接桥梁,推动技术、人才
2026-01-20 18:52:00
空降社渚!KFC&必胜客“双子星”来了,常州首家
社渚喜讯!常州首对餐饮“双子星”——肯德基与必胜客,即将同步落户社渚!二月初,开业倒计时正式启动,快乐进入双倍时代。从此小镇生活添了新滋味
2026-01-20 18:54:00
中新经纬1月20日电 19日,小红书正式上线《社区公约2.0》,在延续“真诚分享,友好互动”社区价值观的基础上,明确提出“反对制造对立”的倡导
2026-01-20 19:14:00
打造复合生活空间,应对多元业态挑战!石家庄本土超市加速向体验化、社区化转型
1月16日上午9时,刚刚开业的石家庄北国超市青园店客流如织。经历了永辉闭店、北国接手后,经过30天左右的装修筹备,该店如今以全新面貌亮相
2026-01-20 19:39:00
从技术突破到产业落地:见证国器传感的量子征程
在工业4.0浪潮席卷全球的今天,传感器作为智能制造的核心元件,其技术突破与产业升级已成为衡量国家工业竞争力的重要标尺。这场没有硝烟的科技博弈中
2026-01-20 19:53:00
第17期监制:杨春红制作:王金顺记者:牛思家
2026-01-20 16:59:00