• 我的订阅
  • 科技

别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩家也支棱起来了

类别:科技 发布时间:2024-08-01 09:34:00 来源:机器之心Pro

如今的 AI 在识别人类情感方面发展到什么程度了?本月初,一场向更具情感 AI 发起挑战的高规格赛事落下了帷幕!

这就是第二届多模态情感识别挑战赛(MER24),它由清华大学陶建华教授、中国科学院自动化研究所连政、帝国理工学院 Björn W.Schuller、奥卢大学赵国英以及南洋理工大学 Erik Cambra 联合在 AI 顶会 IJCAI2024 上发起举办,探讨如何利用文本、音视频等多模态数据来进行 AI 情感识别,并推动相关技术在真实人机交互场景中的落地应用。

别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩家也支棱起来了

大赛官网:https://zeroqiaoba.github.io/MER2024-website/#organization

本届挑战赛共设置了三个赛道,分别为 Semi(半监督学习赛道)、Noise(噪声鲁棒性赛道)和 Ov(开放式词汇情感识别赛道),其中Semi 赛道参赛队伍最多且难度最高、竞争最激烈。

以 Semi 赛道为例,参赛队伍需要利用少量有标签和大量无标签数据视频数据来训练自己的模型,并对模型在无标签数据集上的表现和泛化能力进行评估。该赛道获胜的关键在于通过改进半监督学习技术来提高模型情感识别性能,比如预测情绪类别的准确率。

自 5 月大赛启动起,两个月时间,来自全球近百支参赛队伍展开了角逐,既不乏知名高校也有创企新势力。其中Semi 赛道第一名由社交平台 Soul App 摘得,其语音技术团队凭借可行性创新技术方案拔得头筹。

别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩家也支棱起来了

不过,在揭秘 Soul 团队技术方案之前,我们有必要先来了解 AI 在多种模态中的情感识别能力。

人机交互下一步

要让 AI 懂情感

如今的 AI 看起来已经无所不能,对话交流、生成图片或视频、解数学题等,能够胜任感知、学习、推理、决策等不同层面的任务。得益于大模型的加持,AI 可以称得上足够聪明,但在感同身受等情感层面却有所欠缺。

在人机交互中,用户有时不单单需要 AI 遵循指令完成任务,还要它们提供足够的情绪价值,满足情感需求。从功能「基操」到情感「进阶」,AI 要掌握的技能就要升级了。

因此,多模态情感识别成为 AI 领域的活跃研究课题。能读懂情绪并传达情感的 AI 成为业界追逐的新热点,也被认为是 AI 领域下一个重大突破。近半年来,一些 AI 创业公司和行业巨头为我们揭开了人机沉浸式交互的新形态。

四月初,国外一家创业公司 Hume AI 发布了一款语音对话机器人 Empathetic Voice Interface(EVI),它通过语音交流分析和识别对话者的语气和情绪,可以检测到多达 53 种情绪。此外它还能模拟不同的情绪状态,在互动中更接近真人。在 AI 情感层面的突破也让这家初创公司快速拿到了 5000 万美元 B 轮融资。

接下来是 OpenAI 放了大招,旗舰模型 GPT-4o 展现了实时音视频通话功能,对用户情感和语气做出即时响应,被称为 ChatGPT 版「Her」,而这个语音功能在近期正式对用户开放。自此,AI 拥有了强大的能言善辩、感知情绪能力,让人直呼科幻时代的到来。

国内如微软小冰、聆心智能等也致力于打造有情感的 AI 产品。我们从中可以看到一种趋势:情感识别能力在文本、音视频等多模态 AI 应用中的参与度越来越高。不过要想在拟人化情感识别领域更进一步,仍需解决有标签数据稀缺、主观情绪识别不稳定和不准确等问题。

因此,推动学界、业界更加关注多模态情感识别领域,并加速相关技术的创新和进步,变得尤为必要。当前,ACM MM、AAAI 等 AI 学术顶会都将情感计算作为一个重要的研究主题,CVPR、ACL 等顶会也曾举办过情感计算相关挑战赛。特别是在面对大数据和大模型时代的来临,如何在多模态情感识别中利用大量无标签数据和有效处理、融合不同模态信息是目前行业面临的重大挑战,此次 MER24 挑战赛举办的原因和意义也在于此。

而 Soul 团队在 Semi 赛道获得第一名,背后是其在多模态数据理解、情感识别算法、模型优化平台工具、内部工作流建设等方面的能力积累与创新,以及技术团队的高效协作。

夺得最难赛道头名

Soul 团队都做了什么?

既然提到 Semi 赛道难度最高,难在哪些方面?Soul 团队又如何获得第一名?我们接着往下看。

数据是 AI 三大要素之一,没有充足特别是高质量的数据训练,模型就无法保证很好的性能效果。面对数据稀缺带来的种种挑战,业界既要扩增包括 AI 生成数据在内的所有类型数据,也注重提升数据稀疏场景的模型泛化能力。多模态情感识别任务也是如此,它的核心在于海量标签数据的支撑,对文本、音视频等不同类型的内容打上喜怒哀乐悲等情感标签。现实却是,互联网上带情感标签的数据非常稀缺。

此次大赛的 Semi 赛道仅提供了 5030 条有标签数据,其余 115595 条均为无标签数据。因此,有标签数据稀少成为包括 Soul 团队在内所有参赛队伍遇到的首个难题。

别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩家也支棱起来了

图源:MER24 基线论文:https://arxiv.org/pdf/2404.17113

另一方面,相较于 Noise、Ov 赛道,Semi 赛道侧重于考验核心主干技术,即更多地关注模型架构的选择以及特征提取泛化能力,对多模态大模型技术技术积累以及创新性要求比较高。

别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩家也支棱起来了

针对赛道少标签数据、高技术要求的特征,Soul 团队基于此前积累的自研大模型部分模块做好了充足的赛前准备,并确定了一套可行性创新技术方案。在整体思路上采取「先主干后微调」的策略,首先集中精力提高每一个核心特征提取模型的泛化性,然后再融合在一起;在具体实现过程中又做了以下几个方面工作。这些构成了他们的核心优势。

首先前期关注多模态特征提取。在端到端模型架构中,利用预训练模型提取文本、语音和视觉不同模态的情感表征,关注情感中的共性和差异性,从而来提升情感识别效果。后期根据多种模态的各模态特征提出有效的融合方法,将这些模块融合形成模型架构。为了提高预训练模型的泛化性能,Soul 团队专门针对视频模态在情感识别领域首次提出了 EmoVCLIP,EmoVCLIP 是一个基于大模型 CLIP 结合 prompt learning 技术在视频情感识别领域更具泛化性能的模型。

另外,为了提高文本模态情感识别能力,Soul 团队针对文本模态使用 GPT-4 来打情感伪标签,充分利用 GPT-4 的情感关注能力,提高文本模态在情感识别的准确率,为后面进一步模态融合打下了更好的基础。

其次,在多模态特征融合上,Soul 团队首次在多模态情感识别方向使用了 Modality Dropout 策略并研究了不同 dropout rate 的性能影响,为了缓解模态之间的竞争问题,在模型训练过程中随机抑制某个的模态(文本、语音或视频模态)以实现更好的鲁棒性,提升模型在提供的有标签数据之外未见过数据上的泛化能力。

最后,半监督学习技术开始发挥作用,其基本思路是使用有标签数据训练出一个模型,然后对无标签数据进行预测,根据预测结果为无标签数据生成伪标签。这些伪标签又用来训练模型,持续提升模型效果。Soul 团队利用半监督学习中这种自训练(Self-training)的策略,循环地为 Semi 赛道超 11 万条无标签数据打伪标签并加入训练集,进行模型迭代更新,得到最终的模型。

别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩家也支棱起来了

Soul 团队参赛技术方案图。

从整体思路到多模态特征融合、对比学习、无标签数据自训练,Soul 团队的技术方案为他们带来了好结果。最终在语音、视觉和文本多模态情感识别准确率上,Soul 团队提出的系统比基线系统提升了 3.7%,达到了 90%以上。同时,对于情感识别领域方向上存在易混淆边界的情感(比如忧虑和担心)识别,Soul 团队也能区分得更好。

别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩家也支棱起来了

图源:MER24 基线论文:https://arxiv.org/pdf/2404.17113

从更深层次看,此次 Soul 团队在 MER24 挑战赛的脱颖而出,是其一直以来在社交领域深耕 AI 大模型技术尤其是多模态情感化交互能力的集中体现。

创新多模态拟人互动

社交型 AI 已是 Next Level

社交领域天然需要有情感的 AI。一种主流观点认为,社交的本质是情绪价值的互换,而情绪又多种多样。这意味着,如果 AI 想要无缝融入社交场景并高效发挥作用,势必要像真人一样提供丰富的情感反馈和体验。

而实现共情 AI 的基础在于让其拥有强大的多模态情感识别能力,在功能上从单纯的「任务执行者」进化到「满足人类情感需求的陪伴者」。但 AI 做到有效地理解情绪依然非常困难,它在理解语境、感知用户情绪、给出情感反馈、进行思考等方面与人类存在本质的区别,因此相关技术与算法的持续创新很重要。

对扎根社交领域的 Soul 来说,着力构建具备情感化能力的 AI 已成为需要思考的重要命题。2016 年上线之初,Soul 首先思考如何运用创新技术和产品来更好地满足用户需求,其中引入 AI 来解决人与人连接需,成为其站稳社交领域并发展壮大的关键。较早推出的「灵犀引擎」利用智能推荐算法,挖掘分析用户兴趣图谱和站内全场景特征,让他们更容易找到聊得来的人和更需要的内容,形成高粘性用户和内容生态。至今,这种更「聪明」的算法应用的匹配场景,也是 Soul 上用户非常活跃的功能之一。

有了早期 AI 辅助社交的成功经验,在这波大模型快速发展的技术浪潮中,Soul 进一步在 AI 介入社交、辅助关系网络的基础上,探索人机互动的新可能。

自 2020 年启动 AIGC 相关算法研发工作开始,Soul 便以多模态为方向,在智能对话、图像生成、语音和音乐生成等多方面拥有了前沿能力积累。相比纯技术向的 AI 创业新势力,Soul 的一大特点在于采用了「模应一体」策略,在 C 端同步推进大模型与 AIGC 应用的过程中注重打造具备情感识别能力的 AI,在丰富拟人化交互场景中真正实现有温度的反馈。

从 Soul 近两年的动作可以看出,其加快了 AIGC 赋能社交场景的步伐。2023 年推出自研语言大模型 Soul X,成为 AIGC + 社交布局的重要基建。在该模型的 Prompt 驱动、条件可控生成、上下文理解、多模态理解等能力加持下,站内对话不仅实现了流畅自然,更具备了情感温度。

文本成为 Soul 情感识别能力落地的牛刀初试,并逐渐从单一模态延伸到了更多模态。今年,Soul 上线语音生成大模型,并正式升级自研语音大模型,覆盖了语音生成、语音识别、语音对话、音乐生成等细分领域,在支持真实音色生成、语音 DIY 等功能的同时具备了多情感拟真人实时对话能力。

当然,Soul 在模型层面持续发力更具情感 AI 之外,也已经在其平台多元化的社交场景中让它们发挥用武之地,进一步丰富和提升用户的 AI 互动体验。

以 Soul 拟人型对话机器人「AI 苟蛋」为例,它依托 Soul 自研语言大模型 Soul X,实现了拟人化交互,不仅可以精准理解用户输入的文本、图片等多模态内容,还能在多轮沟通中根据对话场景为他们主动送去关怀,仿佛对话那头真人一般。同时用户也可以定制专属苟蛋,体验独一无二的虚拟人交互。

别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩家也支棱起来了

AI 苟蛋还展现出了在拟人化、知识、多模态、时间感知等多方面的融合能力,令 Soul 站内很多用户都对它强大的拟人交互能力感叹,这也是为什么 Soul 平台有不少用户会主动发帖吐槽「苟蛋怕不是个真人吧」。

此外,Soul 同样依托 Soul X 在游戏场景「狼人魅影」中引入 AI NPC,借助先进的强化学习技术,在游戏各个阶段具备了伪装、信任、领导与对抗等拟人决策能力,可以直接与用户玩起狼人杀,发言毫无违和感。

再比如 Soul 推出了主站外首个独立新应用「异世界回响」。作为一个 AI 社交平台,用户可与其上多场景、多风格的虚拟人角色展开沉浸式即时交流,这些角色均具备了形象、声音、人设对话能力。当然,用户可以定制虚拟角色,并根据喜好自定义人设(如背景经历、性格等),可玩性很高。

同样地,自研语音大模型也在 AI 苟蛋、狼人魅影以及异世界回响等场景中发挥作用。比如在异世界回响中支持了语音通话功能,拥有类真人音色的虚拟角色与用户自然、实时地对话交流,丰富了互动体验。

别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩家也支棱起来了

“异世界回响” 实时语音通话功能。

在持续深化智能对话、游戏和语音等社交场景的 AI 拟人化互动之外,Soul 还在视觉生成领域构建符合自身审美的多样画风生成能力,打造 AI 数字分身,进一步迈向多维度的综合互动体验。

可以看到,Soul 在 AI 情感识别领域的布局已经覆盖了语言、语音和视觉多模态,在与社交紧密关联的文字、图片、音频和视频场景齐发力,让用户在立体、多感官的人机互动中体验有温度的 AI。

结语

2024 年被很多圈内人士称为 AIGC 应用元年,大家关注的焦点不再只是拼参数和基础能力了。在由模型层向应用层转移的趋势下,率先在垂类领域和场景落地 AI 才能赢得更多用户和市场。尤其是面向 C 端赛道的人机交互,更天然地需要围绕用户需求做文章。这一点在社交领域有着很好的体现。

此前 AlienChat 等多款恋爱 App 停服,「第一批和 AI 恋爱的年轻人失恋」讨论话题上了热搜。在这背后,功能同质化是一部分原因,还在于体验上没有从助手 / NPC 角色转变为真正提供情绪支持的陪伴者。这就要求在社交领域通过丰富人机互动方式和场景,让 AI 全面参与到各个社交环节,与用户深层次情感交流,为他们提供情绪价值。

这或许也将是 AI 社交方向接下来的核心竞争点之一。而这也不难理解,为什么作为应用层的 Soul 会如此看重自研技术能力积累。在过去一段时间,其一方面致力于打造个性化、拟人化、多样化的 AI 能力;另一方面,从多个维度加速 AI Native 应用落地,包括社交体验提升、AI 社交、AI 游戏等,形成完备的 AI 产品链,在多样社交场景中为用户提供 AI 互动的乐趣。

可以说,Soul 近年来基于自研语言和语音大模型孵化出了一系列产品成果,并在提升 AI 与用户情感化互动体验的过程中积累了丰富创新技术和实践经验,这些都为其在 MER24 挑战赛中夺得第一名做足了铺垫,也是其能与来自国际的高质量参赛队伍切磋交流的基础。

近年来,这类挑战赛越来越多,比如 CVPR 2024 Workshop 上的 NTIRE 2024 AIGC 质量评价挑战赛、2023 和 2024 连续两届 MER 挑战赛,国内企业凭借实践中积累的技术屡屡能取得佳绩。比如去年取得 MER23 第一的商汤和今年第一的 Soul,这些企业对 AIGC 技术和应用的重视和投入收到了显著成效。

可以预见,未来像 Soul 这样坚持技术和产品创新的平台会在释放 AI 能力的过程中持续为用户创造价值,这样一来在形成繁荣内容和社区生态的基础上才可能实现自身更持久、更多样化的商业价值。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-01 12:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

国内首个极速超拟人交互向全民开放 可在星火大模型中体验
...模型算法持续演进,国外以GPT-4o、特斯拉FSD等为代表的多模态端到端方案,已被证实可进一步提升技术效果和用户体验。而讯飞星火极速超拟人交互将此前级联方案升级为统一神经网络
2024-09-03 11:00:00
李未可科技正式推出WAKE-AI多模态AI大模型
...科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI多模态大模型,具备文本生成、语言理解、图像识别及视频生成等多模态交互能力
2024-04-19 14:30:00
从智能中枢到超拟人助手:三星Galaxy S25系列揭示手机未来形态
...列给出了答案——通过超拟人化的AI助理Bixby和增强的多模态感知能力,重新定义手机的智能交互体验。当手机屏幕不再只是触控操作的载体,当语音助手能够理解图片和文档中的大千世界
2025-02-12 12:19:00
调研行活动走进Soul App: AI社交时代,如何创造交互新体验
...音大模型能力。目前,Soul AI大模型能力已整体升级为了多模态端到端大模型,支持文字对话、语音通话、多语种、多模态理解、真实拟人等特性,能够实现更接近生活日常的交互对话和“
2025-05-23 11:57:00
百模大战又添新势力!李未可科技将发布自研AI大模型
近期,36kr研究院发布了《2024年AIGC行业研究:多模态大模型与商业应用》,文中基于AIGC产业生态现状和技术发展路径,深入分析AIGC商业化应用的方向与产业发展趋势。其中
2024-03-29 15:00:00
中国版GPT-4o 来了,抢先OpenAI落地,8月底全民开放
...框架创新基础上,星火极速超拟人交互目前主要开放语音模态,未来会持续在交互上创新突破,不仅会带来更多更实用、丰富的功能,也会拓展到更多模态。在2023年科大讯飞全球1024开发
2024-08-20 13:42:00
李未可科技创始人茹忆:WAKE-AI,多模态大模型带来的智慧
...论坛中,李未可科技创始人兼CEO茹忆发表了《WAKE-AI:多模态大模型带来的智慧文旅变革》的主题演讲,分享了自己关于人工智能和AI硬件的看法。茹忆指出,随着大模型的不断发展
2024-05-23 09:17:00
科大讯飞大模型新升级:20秒制作PPT,拟人语音能力超越ChatGPT|最前线
...在逻辑推理、语言理解、文本生成、数学答题、代码、多模态等七大能力上均有提升。升级之后,讯飞星火的文本生成能力和数理运算能力都有提升,可以轻松回答初三的数学物理题。现场演示中,
2024-01-31 07:32:00
Soul App联手中国美术学院再次发起数字艺术展,以AI创造互动新体验
...语音技术等方面拥有了前沿能力积累。目前,Soul具备多模态情感识别能力的语言大模型 Soul X、语音大模型(包括语音生成大模型、语音识别大模型、语音对话大模型、音乐生成大模
2024-09-21 09:49:00
更多关于科技的资讯:
天津市优秀基层理论宣讲员风采展示
2025-12-24 17:48:00
天津市优秀基层理论宣讲员风采展示
2025-12-24 17:49:00
2025长三角伴手礼名单揭晓,有道词典笔行业独家上榜
日前,长三角消保委联盟举办“2025长三角伴手礼”评测活动,经过专业测评优中择优,为消费者推荐各行各业的优质品牌和放心产品
2025-12-24 18:37:00
2025年最省电的空调推荐?跟着趋势选,节能与舒适一站到位!
随着绿色家居理念深入人心,2025年家电消费市场的“节能属性”愈发凸显,空调作为居家高频耗电大户,“省电能力”已成为消费者选购时的核心考量
2025-12-24 22:03:00
科技攻“尖”产业向“新”,盈康一生打造医工创新策源地
近日,“AI for Health助力健康中国2030——第二届海医汇医疗科技创新生态大会”在北京隆重举行。作为海尔集团旗下大健康生态品牌
2025-12-24 22:04:00
中国蓝新闻讯 随着全球多地气温骤降,“取暖需求”持续升温。作为全球小商品贸易的风向标,义乌市场早已嗅到商机,各类取暖、保暖设备进入产销旺季
2025-12-24 16:53:00
鲁网12月24日讯近期,工行临沂兰山批发城支行为全面贯彻国家关于深化普惠金融服务、支持实体经济发展的战略方针,积极响应金融监管机构关于加大普惠金融力度的政策导向
2025-12-24 14:44:00
《次第花开》首期圆满落幕,女性成长新时代启航
近日,她创美好赋能学园首期传承营——《次第花开》在学员的满载收获中圆满落幕。本次课程汇聚了来自各行业的优秀女性,通过为期三天的系统学习
2025-12-24 11:31:00
千企齐聚利雅得,深度链接沙特“2030愿景”---- 2025沙特中国出口品牌联展启幕
12月22日,2025沙特中国出口品牌联展(以下简称“沙特联展”)在沙特利雅得前沿会展中心开幕。作为首次落地沙特的中国出口品牌系列展
2025-12-24 11:34:00
凭何赢得央视频认可? 成都普济中医以专业实力诠释“身边的肿瘤康复专家”
在国家“健康中国”战略深入推进的背景下,树立医疗健康领域的优质标杆,传播科学、规范的实践模式,已成为推动行业高质量发展的重要途径
2025-12-24 11:44:00
大皖新闻讯 近日,安徽敏航科技有限公司与北京魔康科技发展有限公司进行“数智赋能·空域共生”无人机战略合作签约,双方建立全面战略合作伙伴关系
2025-12-24 12:32:00
数据驱动的仓储革命:中感智能清仓机器人如何成为企业积累工艺数据资产的关键
当前,全球工业领域正加速向智能化、无人化转型,国家政策亦持续鼓励“机械化换人、自动化减人、智能化无人”,以提升本质安全水平与生产效率
2025-12-24 10:31:00
中新经纬12月24日电 针对法国仓遭遇盗抢事件,京东回应中新经纬称,北京时间12月22日,位于法国巴黎地区的京东仓储遭遇盗抢
2025-12-24 10:32:00
厦门网讯(厦门日报记者 楚燕 通讯员 陈雯 李欣)在患者脑中植入电极片,设备就能实时解码患者意图,通过穿戴式设备帮助患者实现抬手
2025-12-24 08:04:00
太晓红摘要:金融科技的崛起对传统商业银行的经营影响极为深远,通过重塑其成本结构、拓展收入边界、优化资产质量,显著提升了传统商业银行的盈利能力
2025-12-24 06:39:00