• 我的订阅
  • 科技

标贝科技GPT语音助手测评:看语音大模型如何重塑语音交互体验

类别:科技 发布时间:2024-01-10 17:00:00 来源:砍柴网

随着AI技术的不断进步,语音助手已经融入了我们生活的方方面面。同时在大模型落地千行百业的大潮之下,语音助手也快速卷入AI革命的浪潮中。

GPT大模型作为一种强大的语言生成模型,通过语言理解、生成能力和上下文记忆能力,不断地自我完善和进化,让语音助手变得更加聪明和人性化,提供更加精准的服务。音色作为语音助手与用户交互的重要元素,其质量的好坏直接影响着用户体验。

近期,标贝科技借助自研的语音合成测评系统,从音频音色的真实度、发音准确率、副语言表达三个维度,对几款主流GPT语音助手进行了全面的测评,深入了解当前GPT语音助手的合成音色质量,给用户提供更多的选择依据。

标贝科技GPT语音助手测评方案

1、测评音频&内容

(1)所有音频均以与GPT对话的形式录制采集,每个音色选择了20条音频,每条音频时长30-40s左右;

(2)音频的内容涉及故事、美食、演讲、诗歌、说明、新闻、客服等方面,采集时会给GPT明确话题和时长要求,内容由其自由发挥,因此本次测评每条音频的内容并不一致,可能会对结果的一致性产生一些影响。

2、测评标准

本次测评需要分三个维度给音频打分、标注,包括真实度、副语言、准确率。

3、测评人员

此次测评由12位人员执行,其中男性5人,女性7人,年龄均在20-35之间,所有人员都经过培训和测评训练,对标准有统一清晰的认知。

4、评测结果

(1)得分汇总

标贝科技GPT语音助手测评:看语音大模型如何重塑语音交互体验

(1)所有音色的真实度得分都在4分以上,说明GPT语音助手非常接近真人发音水平;其中,cove这个音色的真实度最高,达到4.56分;

(2)每句话副语言(如换气、重音、停顿等)平均出现的频率在3次以上;

(3)每句话出现的副语言频率与音色的真实度呈正相关。即副语言频率越多,声音给人的感受越真实,越像真人发音。

●副语言分析

本次测评统计了每个句子中出现的副语言元素以及其总共出现的频率,频率排前五的副语言为换气、重音、停顿、拖音、插入语气词。正是这些副语言为合成音频增加了音色的真实度。

标贝科技GPT语音助手测评:看语音大模型如何重塑语音交互体验

(1)换气

换气是一种语音声学特性,指的是在发音过程中声带之间存在一定的空隙,允许一些空气通过声带传递,产生柔和的、带有轻微气息的声音。在语音合成中加入换气效果,就是模仿了人类说话时的呼吸模式。

本次测评中的GPT语音助手都使用了换气效果,在声音中增加了一种自然、拟人化的感觉,听起来也更加真实自然。

(2)重音和拖音

重音和拖音是为了强调语义内容的手段,通常是通过音调和时长的改变来增强语音表达的自然度和情感丰富性。

本次测评结果真实度较高的音频中,均精确地使用了重音和拖音来突出关键信息(通常会根据上下文内容精确到字),如演讲中强调主题或故事中加强紧张情节。

(3)停顿

在合成语音中引入适当的停顿,可以提高语音的自然度和表现力。测评音色中,我们发现,停顿的长度和位置的调整可以根据文本内容、语气和情感进行差异化处理,使语音听起来更自然而不生硬。如表示犹豫时,会适当增加停顿时长,表达激动内容时,会减少停顿时长。

(4)语气词

语气词指的是在语音中用来表达语气、情感或语言交际功能的词语或短语,常见于口语交流中,如啊、嗯、哦、唉、呃、嘛、吧、啊、笑声等。这些词语通常不是用于传递严格的字面意义,而是用来调整语音的情感色彩、语调、韵律或表达说话者的态度。

本次测评中,语音助手的语气词主要有两个方面的表现:一是对输入的文字进行了口语化改写,适当增加了语气词的部分;二是在声音表现方面,语气词能够做到真实不生硬。

(5)其他

测评结果还发现,GPT语音助手还使用了其他副语言元素,如重复、自我修正、自动加入儿化效果等,都是为了模仿真人的发音特点来实现自然自发的语音效果。

●准确度分析

本次测评的GPT语音助手发音整体的准确率很高,错误出现频率较低。但在处理一些特殊文本时,还会出现一些错误,错误主要分为两类:

第一类与中文的语言特点相关,如TN类文本、多音字、变调等,这类问题如果读音不准确,在一定程度上会影响句子的可懂度,还需要进一步完善;

第二类问题是语音合成中常见的一些声学模型问题,如多字、漏字等,这类问题在本次测评中出现的频率较少,对可懂度的影响也不大。

标贝科技GPT语音助手测评:看语音大模型如何重塑语音交互体验

5、结论

●语音真实度

GPT语音助手在语音真实度方面表现出色,音色普遍接近真人发音,平均得分超过4分。这显示了其在模拟自然语音方面的先进技术。

●副语言表达

测评发现了GPT语音助手在使用副语言元素(如换气、重音、停顿等)方面的效果,这些元素为合成音频增添了更多的真实感和生动性。

●发音准确性

在发音准确度方面,GPT语音助手展现了较高的标准。虽然在处理特殊文本时偶有发音错误,但整体准确率保持在一个较高水平,这对于理解和交流至关重要。

●改进空间

尽管当前成绩显著,但在某些方面仍有改进空间。特别是在处理多音字和语音合成模型中常见的问题方面,需要进一步优化以提高整体用户体验。

基于本次对GPT语音助手的多维度测评结果,标贝科技依托核心的语音大模型迁移学习和深度神经网络技术,推出自然对话语音合成数据库以及自然对话合成音色解决方案,最大程度还原真人说话时的语气词、吸气声、停顿、拖音等副语言细节,让语音助手变得更加拟人化,提供自然、真实的人机对话服务。

标贝科技自然对话语音合成数据库

标贝科技自然对话语音合成数据集完成对数据库的音字标注、韵律标注、情感/口语化行为标签标注,供算法优化直接使用。

标贝科技GPT语音助手测评:看语音大模型如何重塑语音交互体验

标贝科技自然对话语音合成方案

标贝科技自然对话语音合成解决方案的核心在于通过分析大量真实语音数据,提取真人说话时的音色、语调、情感等特征,以提高其对副语言现象的建模能力。在合成语音时,将这些特征复制到机器生成的语音中,从而使得合成的语音能够更加自然、真实地表达说话者的意图和情感。

欢迎对以上数据集和方案感兴趣的行业伙伴联系我们~返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-01-10 18:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

探索AI时代的清洁机器人 | 云鲸携双目视觉及语音大模型技术首秀AWE,展示科技创新实力
...最新探索成果,包括AI立体双目视觉技术和NarGPT多模态语音大模型。据了解,云鲸一直坚持高研发投入,长期深耕机器人底层技术,目前已开始将大模型技术嵌入到产品研发中。位于扫地
2024-03-16 19:00:00
科大讯飞星火语音大模型正式发布
...升,数学、语言理解、语音交互能力超GPT-4Turbo;星火语音大模型正式发布,首批37个主流语种效果超过OpenAIWhisperV3
2024-02-01 10:07:00
语音能力再突破!讯飞星火语音大模型即将发布
...型V3.5升级发布会即将举行,会上将同步发布讯飞星火语音大模型, 此外还将发布开源大模型等。2023年5月6日,科大讯飞正式发布了讯飞星火认知大模型,可以基于自然对话方式完成
2024-01-29 15:57:00
国内首个端到端语音大模型将上线,人工智能也要有“情商”
...迭代更新。西湖心辰在今年8月推出了国内首个端到端语音大模型“心辰Lingo”,该模型具备实时打断、实时控制能力,以超拟人的互动方式,让对话更加生动、直观。所谓端到端语音大模型
2024-09-05 10:07:00
科大讯飞多语种技术,提供超1亿分钟公益服务
...语种冠军及7个语种非受限赛道冠军;2024年,讯飞星火语音大模型的首批37个主流语种的语音识别效果超过OpenAI最新语音大模型Whisper V3
2024-05-08 15:08:00
大模型重塑版讯飞输入法来了!能懂每个人的AI输入
...在此之上,搭载着讯飞星火端侧输入大模型、讯飞星火语音大模型的讯飞输入法14.0亮相,再次让人眼前一亮。讯飞输入法14.0的”AI输入增强“可以直接让输入法“猜你喜欢”,输入上
2024-10-29 09:55:00
端到端同传国内首个!科大讯飞星火同传语音大模型发布:领先Gemini 2.0、GPT-4o
快科技1月15日消息,今日,科大讯飞星火同传语音大模型正式发布,这是国内首个具备端到端语音同传能力的大模型。相较于讯飞此前的翻译技术,该模型在全场景下的翻译效果提大幅提升,端到端
2025-01-15 10:54:00
讯飞星火赋能千行百业,科大讯飞亮相世界智能产业博览会
...专用领域,各个垂直行业就有可能实现超越,目前星火语音大模型已在37个主流语种实现超越。刘庆峰还在现场透露,就在展会的几天后,6月27日,科大讯飞将发布讯飞星火V4.0,全面对
2024-06-21 10:19:00
全国产算力平台“飞星一号”的首个成果发布:讯飞星火V3.5来了
...等“打工神器”获得台下一阵掌声点赞。正式发布星火语音大模型“大模型带来了语音技术发展的全新机会。”刘庆峰强调,让机器具备学习、推理和决策的能力,就是认知大模型要干的主要工作。
2024-01-30 22:41:00
更多关于科技的资讯:
木里木外x Designwire设计腕儿 《心居未来·豪宅艺术与生活方式》趋势论坛圆满举行
智能高定探索美好关系,2025年10月22日,木里木外·故宫·源邸迎来了一场思想与美学的盛宴。以“心居未来·豪宅艺术与生活方式”为主题的趋势论坛论坛在此隆重启幕
2025-11-03 14:31:00
以 AI 科技赋能中超 ,铸强品牌区域影响力
鲁网11月3日讯2025年2月22日,联想集团与中国足球职业联赛联合会正式达成战略合作,成为中超联赛官方合作伙伴,以全栈 AI 技术为核心为联赛注入科技活力
2025-11-03 14:37:00
中新经纬11月3日电 据“北京市场监管”微信号3日消息,京津冀三地市场监督管理部门联合发布“双十一”消费提示和平台合规指导
2025-11-03 15:00:00
第26届金牌服务季战略升级,金牌家居赋能装企决胜“品质交付”
10月29日上午,金牌服务季——“品质交付”装企交付保障誓师大会在金牌家居总部研发大楼隆重举行,金牌家居总裁潘孝贞、轮值执行副总裁陈少华等多位领导出席
2025-11-03 15:01:00
近日,致力于智慧、安全、健康和可持续建筑解决方案的全球性企业江森自控宣布推出EasyIO Neo Series楼宇自动化系统的新版本
2025-11-03 15:01:00
远大生命科学与图灵量子共建AI赋能平台|量子智能重塑GUTX益次方研发范式
近日,远大生命科学有限公司(以下简称“远大生命科学”)与图灵量子正式签署战略合作协议,双方将共同建设“益生菌数据库及量子AI赋能系统”
2025-11-03 15:01:00
2025世界物联网博览会|思特奇全栈物联能力筑基万物智联
10月31日,2025世界物联网博览会(2025WIOT)已在无锡市太湖国际博览中心盛大启幕。作为国内领先的数字化转型与智能化服务提供商
2025-11-03 15:09:00
2025年优质少儿编程教育机构:妙小程少儿编程-赛事出口+精准匹配!
在少儿编程教育领域,家长选择机构时通常会围绕课程体系的科学性、教学模式的适配性、竞赛支持的实用性及师资团队的稳定性展开考量
2025-11-03 15:10:00
2025年51Talk口碑好:收费透明+约课便捷+系统稳定!
在为孩子选择在线英语课程时,很多家长都会关心课程的收费价格是否合理、能否长期坚持。作为2011年成立、2016年在美国上市的首家中国在线教育企业
2025-11-03 15:12:00
张朝阳谈物理课开讲四周年:人生任何阶段都可以学习
11月2日14:00,搜狐创始人、董事局主席兼首席执行官、物理学博士张朝阳携《张朝阳的物理课》四周年特别直播如约而至。以“以矢量微积分的精神表达微分几何”为主题
2025-11-03 15:31:00
无人车配送场景再“上新”,顺丰同城携手收钱吧推出无人车校园餐配
近日,国内规模最大的第三方即配平台顺丰同城与数字化门店综合服务商收钱吧达成合作,联合在四川汽车职业技术学院推出无人车校园智能餐配服务
2025-11-03 15:31:00
鲁网11月3日讯近日,山东省地矿局第七地质大队与之江实验室科学数据枢纽研究中心,聚焦AI技术与地矿行业的深度融合,通过视频会议形式召开专题交流会
2025-11-03 15:47:00
携手何泓姗创意直播,容声冰箱以“鲜净”引领储鲜新观念
鲁网11月3日讯10月31日,容声冰箱在长沙京东MALL打造了一场别开生面的“快闪+直播”品牌事件。活动邀请了在《如懿传》中饰演“小琵琶精”白蕊姬的知名演员何泓姗作为“超级用户”
2025-11-03 15:50:00
三联家电11.11全城狂欢节启幕:家电迎最佳入手时机
鲁网11月3日讯随着冬季临近,消费者对家电的需求日益旺盛。即日起至11月11日,三联家电“11.11全城狂欢节”正式开启
2025-11-03 15:51:00
海信冰箱首创磁吸光幕门板,破解高端家电美学与功能兼容难题
鲁网11月3日讯日前,家电行业迎来一项标志性创新——深耕市场多年的海信冰箱正式推出了全球首创的磁吸光幕门板,并成功入围2025国际CMF设计奖
2025-11-03 15:52:00