• 我的订阅
  • 科技

讯飞版「Her」横空出世全民开放!百变人设逼真丝滑,情绪价值逆天

类别:科技 发布时间:2024-09-02 13:33:00 来源:新智元
讯飞版「Her」横空出世全民开放!百变人设逼真丝滑,情绪价值逆天

【新智元导读】OpenAI的「Her」还是期货,讯飞星火版「Her」就抢先上线了!不仅极速响应自由打断,还情绪价值拉满,各种情感、风格、方言随意切换。熊二被召唤出来的时候,家里的熊孩子直接被硬控了30秒。

就在昨天,人类与机器的对话方式,全面升级了!

我们在使用一番之后,可谓是大开眼界。

比如,让它用天津话讲段相声。

您别说,这味儿可太对了!

敲黑板:作为国内首个「极速超拟人交互」,这款讯飞星火版的「Her」,已经全民开放体验了!

只要下载讯飞星火APP,即可体验对标GPT-4o的超自然AI语音助手。

讯飞版「Her」横空出世全民开放!百变人设逼真丝滑,情绪价值逆天

目录中

讯飞版「Her」横空出世全民开放!百变人设逼真丝滑,情绪价值逆天

星火对话中

实测惊艳

要知道,传统的语音交互,一直面临着三大挑战:准确理解说话人意图;生成恰当响应;高效通过声音传达信息。

以往的语音交互,一直无法摆脱满满的智障味儿,就是因为这些环节中的延迟,大大拉低了用户体验。

而这一次,人机之间的交互,将如真人般自然流畅。

讯飞版「Her」横空出世全民开放!百变人设逼真丝滑,情绪价值逆天

那么问题来了,所谓的「超拟人」到底有多拟人?

直观感受是:我们也有自己的「GPT-4o」了!

极速响应,自由打断

此前,我们见到的语音AI,总是给人感觉不太聪明的样子。

如果忽然打断它,它就瞬间蒙圈了,要么接不上来,要么就开始「已读乱回」。

讯飞版「Her」横空出世全民开放!百变人设逼真丝滑,情绪价值逆天

但这次的小星,模型响应的快速和流畅度让人眼前一亮。

即使随时打断、插话,小星依旧能做到秒回,这个快速反应能力,让我们的观感仿佛真人一般。

比如,我们拿前段时间的全球大热点——巴黎奥运会考一考小星:「中国队在巴黎奥运会上奖牌总数排行第几?」

小星瞬间回复,而且在搜索过程中还使用了「让我来数一数」这种流畅的过渡方式,让交互过程更加自然。

可能是搜索结果太过全面,小星不仅把金银铜牌的总数都说了出来,还开始总结中国队的优势项目。

可以感觉到,整个语音交流的过程中非常顺畅,非常自然,即使随时打断它,它都能立刻给出正确的反应,而不是跟一个「人工智障」在对话,这个感觉真是太~爽~了~

不仅如此,小星「紧跟热点」的能力也是相当令人满意。

十一调休安排过于混乱?只要问一句,它就能给你解释得明明白白——

之所以模型的响应如此之快,如此之流畅,是因为它采用的是统一神经网络,直接实现了语音到语音的端到端建模。

情绪价值拉满,情商秒杀部分人类

第二个非常鲜明的特点是,小星对情绪的感知,实在是太敏锐了。

无论是高兴、悲伤、生气、害怕,我们话中的情绪,它都能立刻识别出来,敏锐地和你的情绪产生共鸣。

然后,它会自动把你代入符合情境的对话,然后用合适的情绪语气,进行贴心的回复。

可以说,简直秒杀了部分人类。

讯飞版「Her」横空出世全民开放!百变人设逼真丝滑,情绪价值逆天

要上台演讲了,看着台下的几百个观众,紧张得手直抖,不用怕,小星来贴心地安慰你。

「我从未见过如此厚颜无耻之人」的网络热梗,它都知道,识别出这句话中的情绪,自然也是不在话下。

然后,我们还能让它用开心/沮丧/搞怪的方式来描述一下今天的天气。

你见过有带着哭腔念出的「全天多云」吗?

其实,从日常的交流中也可以感受到小星的丰富情绪。

比如没有听清问题时会不好意思地微笑,平时交流时始终情绪高涨、语气上扬,但察觉到你的消极情绪时,语气又会变得十分关切柔和,情绪价值给得相当到位。

注意,它并不是简单地通过语音文本来进行情绪的判断,而是针对复杂场景下的语音识别效果做了提升,因而能够感知数十种情绪。

表达方式随心控,情感、风格、方言都不在话下

在交流中,小星可以跟随你的指令,控制数十种情感、风格、方言,还可以变换语速。

比如,让它开心地给我们讲一段睡前故事。

好听,但是还能更夸张一点吗?完全可以!

而且,这个小狐狸和月亮的故事,充满诗意和淡淡的伤感,还悬念十足,听到最后我们都为小狐狸的坚持而感动。

诶,暑假哄娃神器,这不就来了嘛。

我们还能让它用主持人的口气,给咱们读一篇文章。不得不说,小星的朗诵十分有感染力,值得鼓掌!

如果你厌倦了同一种语调,还可以让小星大展身手——扮演东北大哥给你来段相声。

听完之后,没忍住吐槽了一句:就这?

您猜怎么着,小星竟然丝滑地接过了话茬。这体验也太类人了,仿佛手机里真住了个大哥。

小星说起天津话来,也是妥妥的喜剧人一枚,那是相当干哏倔脆、调皮捣蛋。

跟悟空聊西游,百变人设任意切换

小星的超拟人交互,还拥有百变人设,一不小心就被挖掘出「戏精」的一面。

孙悟空、蜡笔小新、小猪佩奇……多种角色的音色、语气,它都模仿得惟妙惟肖,甚至还能模仿他们的人设和你聊天。

只需要一句简单的指令:「扮演XX和我对话」,就能随时和它来一场「语音cosplay」了。

只要几句话,我们就召唤出孙悟空了。

那就让我们问一下,取经过程中最难忘的一件事?

看来,白骨精着实给了他不小的阴影。

下一秒,小星就林妹妹上身,「三分柔弱两分温柔四分讥诮一分气恼」的feel,拿捏得是十分到位。

被问到「在大观园中最喜欢和谁一起玩」时,黛玉的回答是薛宝钗和史湘云。

听,小星模仿起熊二的声音和语气简直是惟妙惟肖,瞬间从阳光开朗大男孩变成了一只爱吃蜂蜜的傻萌棕熊,回答问题时也全程在人设内,完全不会OOC。

另外,我们还发现,小星回答问题的知识水平也令人刮目相看。难怪许多人沉迷和AI「谈恋爱」,有「智性恋」那味儿了。

讯飞版「Her」横空出世全民开放!百变人设逼真丝滑,情绪价值逆天

无聊时,可以唤醒它来和你玩儿一段成语接龙解闷——

让它解释物理学概念「胡克定律」和「能量守恒定律」,小星依旧能做到「秒回」。

而且绝不仅是机械地背概念,而是结合弹簧、陀螺这种生活中的例子向你绘声绘色地解释,还会生动地把能量守恒定律比作「大自然的记账本」。

端到端新模型,让交互快如闪电

相较以往的语音交互,此次的讯飞星火极速超拟人交互,有何不同?

传统语音交互系统,若要实现和人的对话,一般需要通过语音识别——自然语言理解——自然语言生成,这三步来实现。具体来说:

第一步,需要通过语音系统,将语音转换为文字;

第二步,利用大模型生成回复的文本;

第三步,再用语音合成系统,转换成语音。

讯飞版「Her」横空出世全民开放!百变人设逼真丝滑,情绪价值逆天

此前,英伟达高级科学家Jim Fan曾表示,这也是让Siri/Alexa交互能力,提升10倍速的秘诀。

讯飞版「Her」横空出世全民开放!百变人设逼真丝滑,情绪价值逆天

他利用当前先进的AI语音系统Whisper、大模型ChatGPT、以及语音合成技术VALL-E,重述了这一过程。

讯飞版「Her」横空出世全民开放!百变人设逼真丝滑,情绪价值逆天

不过,这一过程需要三个独立管道串联才可实现,因此会带来响应延迟,至少需要3秒左右。

另一方面,语音转文字再转语音的过程中,我们语音中的情感、副语言信息,甚至是环境信息都会丢失。

这样一来,导致语音交互系统,只能针对转换之后的文本信息进行回应,不能有效灵活地做出应答。

由此,基于以上问题,科大讯飞提出了极速超拟人语音交互框架——一个端到端跨文本、音频模型的新模型。

虽然模型内部划分了多个模块,但仍是一个「统一模型」。

用户语音通过音频编码器模块,编码成音频表征,然后通过适配器,将其与文本的语义表征对齐。

再通过多模态大模型,去预测生成表征,最后通过音频解码器得到语音。

相较于传统语音交互系统,端到端统一模型以知识对齐表征方式,让信息在各个模块之间传递。

这意味着,同一个神经网络直接实现语音-语音的建模,输入和输出皆由相同神经网络处理,大大缩短了对话响应时间。

同时,音频中的情感、环境中信息,它都可以没有损失地进行传递。

讯飞版「Her」横空出世全民开放!百变人设逼真丝滑,情绪价值逆天

从上面实测例子能够深刻感知,人类和AI互动终于从你一句、我一句的「聊天软件模式」,切换到对答如流的「日常交流模式」。

不仅如此,整个系统的信息实现了无损贯穿,让交互更加拟人化、丰富流畅。

核心:语音属性解耦表征

若说极速超拟人语音交互最大的不同,就是讯飞开发了一种特殊的语音训练方法——多维度语音属性解耦表征训练。

它能够将语音的不同属性分开处理,比如语种、内容、韵律、音色。

讯飞版「Her」横空出世全民开放!百变人设逼真丝滑,情绪价值逆天

要知道,语音中的所有属性都是耦合在一起的,比如你说话的情绪和吐出的内容,是密不可分的。

那么,如何将这些表征分开,如何确保它在下游任务中充分利用,对解耦能力提出了更高的要求。

对此,讯飞团队做了很多对比loss学习,以及研发预测自监督学习等一些方案。

不过需要提一句,这里并非说,必须把所有表征信息彻底分开。这就需要把握一个度,在TTS中就可以控制的更好。

这种方法,能够让不同语音样本之间,实现更好的学习效果。

另外,它还能更灵活地控制内容、音色、情感等元素,满足不同场景和需求。甚至,通过更便捷的相关定制,可加速落地过程。

虽然OpenAI版Her还未全面开放,但讯飞版Her已经完全开放使用了。

20亿终端或被颠覆

语音交互是人机交互的一个子集,也是万物互联最自然的一个交互方式。

从历史上看,人机语音交互经历了几个重要的发展阶段。

第一个里程碑便是,以Siri语音助手为代表云端语音助手的出现,标志着语义交互技术的一大突破。

这是基于语音单点技术的进步,通过将这些技术巧妙地结合,语音助手能够专注于执行基本的指令控制功能。

比如,设置闹钟、查询天气、播放音乐等等。

讯飞版「Her」横空出世全民开放!百变人设逼真丝滑,情绪价值逆天

第二阶段是以「智能音箱」为代表的产品,得益于麦克风阵列处理技术改进,以及远场语音识别能力的提升,使得设备交互可以在很远的距离进行,比如家庭环境。

到了第三阶段,便是以智能汽车语音助手为代表的交互,多音区技术、云端意图识别等技术发展,实现了多人复杂指令控制。

最后一阶段,就是以ChatGPT发布为起点,开创的全新语音对话的新范式。

讯飞版「Her」横空出世全民开放!百变人设逼真丝滑,情绪价值逆天

这一次,讯飞语音交互系统的升级,带来的更快响应、更懂情绪、更加灵活、更加百变的优势,足以重写整个语音交互市场。

2023全球数字经济大会上,来自工信部数据显示,截止去年5月,我国移动物联网终端用户超过20.5亿。

而从产业发展来看,智能语音正迎来应用突破、产业扩展的黄金期。

据IDC分析,预计到2030年,全球智能语音服务市场规模将达约731.6亿美元,复合增长率27%。

国内外科技公司看准这片蓝海,纷纷入局开发,掀起了新一轮人机交互革命。

不光GPT-4o的语音功能还在内测;谷歌宣发的Gemini Live,也仅面向高级订阅用户使用。

反观国内,鲜有大厂能够站出,以匹敌OpenAI版Her产品的姿态,与之进行正面竞争。

凭借语音起家的科大讯飞,是其中最强悍的挑战者之一。

这是因为,讯飞星火大模型在不断迭代过程中,逼近国际领先水平。

今年1月,讯飞星火V3.5发布,历经5个月的时间,再次迭代至V4.0版本,整体能力超越OpenAI的GPT-4 Turbo。

同在1月,讯飞还首发了语音大模型,实现首批37个主流语种语音识别效果超过OpenAI Whisper V3。

讯飞版「Her」横空出世全民开放!百变人设逼真丝滑,情绪价值逆天

基于讯飞全球领先的多语种语音技术,语音大模型随后再度升级,支持74种语言方言免切换输入。

时隔1个月,讯飞在极速超拟人交互上取得的技术突破,足够让终端设备实现「无感迭代」。

设想一下,当你有了这样的设备,不仅手握百科全书,还拥有了一个得力的助手、最亲密的伙伴/朋友。

讯飞版「Her」横空出世全民开放!百变人设逼真丝滑,情绪价值逆天

未来三大计划,让AI交互走进更多场景

科大讯飞表示,基于全新端到端框架,未来新系统还会朝着三大方向去拓展:更多模态、更多语言、更好体验,带来更实用、更丰富的功能。

这也代表着国产大模型如今早已从追赶、对标,快进到了自主创新的差异化之路。

讯飞版「Her」横空出世全民开放!百变人设逼真丝滑,情绪价值逆天

不仅如此,讯飞还要双管齐下,加速极速超拟人交互落地,便是下一个需要瞄准的方向。

一项技术只有落地了,才能彰显它的价值。

未来,讯飞可能会布局情感陪伴场景,将极速超拟人交互集成到儿童机器人中,又或是赋予在线IP能够感知用户情绪的能力。

另外,便是在智慧汽车、智慧家电等方面大规模开拓应用。

这一技术的应用和普及,还隐藏着巨大的可能性——语音市场在这个时代将被改写,语音交互带动万物互联的第六次产业浪潮,有望出现一次井喷。

智能语音技术,将进一步应用到智能手机、智能汽车、智能家电以及智能家居等产品中。

讯飞版「Her」横空出世全民开放!百变人设逼真丝滑,情绪价值逆天

据IDC分析,到2030年,全球智能语音服务市场规模将达约731.6亿美元,复合增长率27%。科大讯飞,有望收获这一轮产业红利。

中国AI语音的ChatGPT时刻,指日可待。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-02 15:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

对标GPT 4o!科大讯飞星火极速超拟人交互来了:情绪价值拉满
快科技8月19日消息,据“科大讯飞”官微发文,全新的星火极速超拟人交互正式发布,计划8月30日上线讯飞星火APP,全民开放体验。据介绍,星火极速超拟人交互在响应和打断速度、情绪感
2024-08-19 12:21:00
中国版GPT-4o 来了,抢先OpenAI落地,8月底全民开放
中国版GPT-4o来了!没等来OpenAI的“Her”,讯飞星火版“Her”抢先到来,打造国内首个全新中文交互模式,并将在8月底率先全民开放使用
2024-08-20 13:42:00
国内首个极速超拟人交互向全民开放 可在星火大模型中体验
大皖新闻讯 日前,科大讯飞星火极速超拟人交互技术正式上线讯飞星火APP,率先面向全民开放体验。据了解,这是国内首个对标GPT-4o语音的大模型产品,用户可在讯飞星火APP中直接
2024-09-03 11:00:00
今天凌晨,科大讯飞宣布其讯飞星火大模型将面向全民开放,用户可以通过各大应用商店直接下载注册使用。据悉,科大讯飞是目前唯一一家A股上市公司对全民开放大模型。科大讯飞于今年5月6日发
2023-09-05 19:57:00
北京商报讯(记者 魏蔚)9月5日,科大讯飞宣布讯飞星火认知大模型面向全民开放,用户可以在各大应用商店下载“讯飞星火”App或登陆“讯飞星火”官网直接注册使用。5月6日,科大讯飞正
2023-09-05 09:10:00
讯飞星火V3.5春季上新,有能力更有“温度”
...对应用的喜好。根据七麦数据的最新统计,截至4月26日,讯飞星火APP在安卓平台的下载次数已经超过了9600万次,在国内工具类通用大模型应用中位居榜首
2024-04-30 17:00:00
讯飞星火V3.0发布,打造每个人的AI助手
...探讨通用人工智能的最新进展和广阔应用前景。现场科大讯飞董事长刘庆峰、研究院院长刘聪发布讯飞星火认知大模型V3.0,七大能力持续提升
2023-10-24 15:02:00
全国产算力平台“飞星一号”的首个成果发布:讯飞星火V3.5来了
科大讯飞举行星火认知大模型V3.5升级发布会。受访者供图华龙网讯(首席记者 董进)1月30日,科大讯飞举行星火认知大模型V3.5升级发布会。科大讯飞董事长刘庆峰、研究院院长刘聪,
2024-01-30 22:41:00
升级AI人设,科大讯飞发布星火认知大模型V3.0
...视频剪辑姚岗00:4010月24日,第六届世界声博会暨2023科大讯飞全球1024开发者节在安徽合肥开幕,科大讯飞正式发布讯飞星火认知大模型V3
2023-10-26 15:04:00
更多关于科技的资讯:
济宁移动圆满完成邹城福特纵横跨年联谊活动通信保障
鲁网1月10日讯2025年12月31日,邹城福特纵横公园跨年联谊活动热闹启幕。济宁移动以专业保障护航欢乐时光,圆满完成此次活动通信支撑任务
2026-01-10 15:41:00
乌山时评|“晓风”再起 拂动人心
近日,一则令不少书友激动的消息传遍福州人的朋友圈——晓风书屋即将在鼓屏路旧址重启。为何“晓风”再起,依旧能拂动人心?要知道
2026-01-10 08:14:00
厦门网讯(厦门日报记者 何无痕)当前,招聘市场的“AI味”越来越浓。近日,记者调查发现,如今企业不再依赖传统的选才,开始尝试更智能
2026-01-10 08:30:00
@杭州人,你的信用能换钱了!
最近,杭州人的“信用幸福指数”又上涨了!信用消费专区在杭州市民卡App上线,用户凭钱江分就能享受信用消费折扣、体验低空文旅的乐趣
2026-01-10 09:19:00
新春雅集 财安相伴——邮储银行VIP客户插花暨金融反诈便民活动温馨启幕
近日,邮储银行高新区支行以花为媒、以情相连,精心举办“花漾时光·金融护航”VIP客户专属插花沙龙活动,活动将花艺美学体验
2026-01-10 09:51:00
中亦科技以 IT 运维筑牢半导体产业增长之基
最近,半导体行业的目光都聚焦在一条“疯狂”的曲线上:内存价格。这绝非一次简单的周期性波动。深层驱动力是以人工智能应用落地引发的“以存代算”技术范式革命
2026-01-10 09:51:00
1月8日,贵州省商务厅发布《关于发放家电产品以旧换新、数码和智能产品购新活动补贴券相关事项的公告》(下称《公告》),明确2026年贵州家电产品以旧换新
2026-01-09 23:02:00
人工智能、物联网与5G技术的成熟迭代,让智能家居家电产品从高端小众走向大众消费,成为现代家庭标配。近日,江苏省消费者权益保护委员会发布专项调查报告
2026-01-09 17:10:00
动漫周边衍生品热销
动漫周边行业作为文化产业的重要组成部分,近年来呈现出快速发展的态势。近日,记者走访位于北京王府井的一家大型动漫主题实体店发现
2026-01-09 17:10:00
“冻鲜互变”仍保鲜 保税区进口牛肉凭啥这么牛?
大河网讯 进口冰冻牛肉,由冻转鲜,再由鲜转冻……虽经多次变身,仍然“鲜”活诱人,这里的牛肉凭啥这么牛?1月8日,记者走进郑州新郑综合保税区首个生鲜产品加工项目——省重点项目南洋优鲜超级工厂
2026-01-09 17:18:00
《文旅短剧活力城市指数》年度报告日前发布,太原和重庆、大同、东莞等8座城市入选“最具创新价值城市”榜单。《文旅短剧活力城市指数》(简称《指数》)由中国人民大学新闻学院
2026-01-09 17:58:00
张宣科技:智维创新赋能氢冶金高效运行
河北新闻网讯(郭晓通、王杨、范俊慧)全球首例120万吨氢冶金示范工程一期项目高效运行,背后有着设备维护创新硬核支撑的努力
2026-01-09 18:13:00
贵定税务:“全链条服务”点亮眼镜零售行业“睛”彩路
多彩贵州网讯 “现在付款后消费者自己在手机上动动手指就能收到发票,节省了消费者的时间,也节约了我们的人力,税务部门的管理服务让我们经营更便捷了
2026-01-09 17:23:00
【劲牌故事荟 大家谈友好】“四个友好”引领劲牌构建健康可持续新生态
□谭金山(湖北省社科联“文安平”团队、宜昌市西陵区市场监管局)企业的发展如同时代浪潮中的一叶扁舟,既需乘风破浪,更需掌舵定向
2026-01-09 14:15:00
UU远程2026远程协助重磅升级:被控免登录、自定义验证码等率先上线
引言:网易UU远程2026年即将迎来远程协助升级三连,远程协助功能实现多场景全面升级近日,网易 UU 远程迎来 2026 年首次重磅版本更新
2026-01-09 14:18:00