• 我的订阅
  • 科技

趣丸科技副总裁兼CTO谢睿:多模态智能激发应用新场景 | 新质生产力·AI Partner大会

类别:科技 发布时间:2024-05-24 22:22:00 来源:36氪

5月24日,36氪“新质生产力·AI Partner大会”于北京环球贸易中心正式拉开帷幕。大会聚焦AI场景与应用端,分为“AI能为我们做什么”和“我被AI赋能了”两大篇章。现场汇聚来自蚂蚁集团、联想、OPPO、百度、英特尔等企业的AI领域先锋者,以“赋能者”与“被赋能者”的不同视角,共同探讨AI技术如何“爆改”千行百业。

以下为趣丸科技副总裁兼CTO 谢睿演讲实录。

趣丸科技副总裁兼CTO谢睿:多模态智能激发应用新场景 | 新质生产力·AI Partner大会

趣丸科技副总裁兼CTO 谢睿

大家下午好!我是趣丸科技的谢睿。

很荣幸能够受邀参加36氪AI Partner大会。今天我的演讲主题是《多模态智能激发应用新场景》,借这个场合与各位新老朋友分享趣丸科技在人工智能方面的最新探索成果,以及赋能智能音频和数字安全方面的一些思考。

首先,请允许我简单介绍一下趣丸科技。

我们是一家成立于2014年的国家高新技术企业,可能有些朋友对我们的兴趣社交产品TT语音和TT电竞业务比较熟悉。得益于公司十年积累的技术自研能力,我们也构建了全栈式AI交互技术产业生态,专注人工智能交互前沿技术研究和提供企业级解决方案。

我们目前围绕四个大模型(生成式3D大模型、生成式音频大模型、生成式动作大模型、对话大模型)在开展技术自研,后续将推动规模化落地应用。

前段时间GPT-4o的问世,相信大家都看到很多关于多模态智能的讨论。多模态使得人工智能可以像人类一样感知和理解音频、文本、图像、视频等多种模态信息,并与人类进行更加自然高效的交互,展现出了强大的功能和广泛的商业应用前景。

多模态能力是实现通用人工智能的重要路径之一,也是趣丸科技人工智能技术的重点投入方向。我们认为AI竞争归根结底是落地速度的竞争,新技术的真正繁荣,取决于应用的繁荣。

这几年,我们将多模态能力融入公司技术研发体系,并结合长期积累的用户优势,探索出了经过市场和用户验证的应用成果。这里,我主要选取了两个案例来做分享:

一、智能音频赋能创新玩法

在智能音频领域,我们的技术能力已经实现了数据层、算法层到应用层、接入层的全方位覆盖,智能音频也是趣丸科技与生俱来的技术优势。

如何利用智能音频技术解决创新玩法设计和提升用户体验?

具体来说,我们从听、说、想三部分来进行思路拆解:

首先要让AI能听懂用户的声音,正确识别声音中的文本信息、音频属性信息等;

其次能参与用户互动,比如用户可以进行实时的语音交流、调整音色,打造更多新奇体验;

第三就是能理解信息中蕴含的意思,理解用户的意图、情绪状态,帮助我们做出合理的响应。

分析好思路后,我们要做的是寻找解决方案,这个解决方案必须满足三大指标要求,即算法效果准确、模型预测的性能要最优、算法推理延时小于我们要求的阈值,保障用户能有良好的体验。

经过长时间的迭代与验证,我们自研了一套端云协同三维一体智音体系,它主要在移动端语音识别、音色克隆TTS、音色转换、语音评价等方面实现技术突破,在安全可信范围内,有效解决用户在即时语音场景下的语音沟通问题,且为用户提供了丰富的音频玩法。可落地应用于在线音频、社交、语音类产品中。

总的来说,我们希望通过这套解决方案,让AI“更懂人话、更有才华、更通人性”,切实地推动产品创新、增强用户体验。

(一)听:语音识别方向

在语音识别方向,我们主要基于特征和对比学习的模型蒸馏技术,以及对流式语音识别模型RNNT的一系列算法改进,包括跳帧解码、惩罚延迟以及输出抑制。此外,我们还借助强大的大模型进行模型微调和数据增强,最终整合端上神经网络计算框架NCNN的改造,打造了一款具备低延迟、低资源消耗和高准确率、高安全性的的移动端轻量级语音识别方案。

它适配不同口音、语速和环境噪声,可应用在语音直播、多人聊天等场景。例如,多人聊天场景中,我们帮助客户开发出“字幕生成”功能,可以毫秒级完成语音识别音转字,方便用户交流。

(二)说:音色克隆TTS方向

在音色克隆方向,传统的语音克隆需要大量的数据集来训练模型,少批量数据会导致模型效果不佳,当使用少批量的数据进行语音克隆时,存在克隆音色相似度低,合成音频存在底噪大、漏字、情感自然度差等问题。

因此我们开发出了一种基于深度学习技术的云端语音克隆方案,自研完善音色克隆TTS技术。该方案通过高质量音频数据收集处理,在模型中加入alignment loss对齐模块、语言学信息、prosody encoder模块等,再经过云端推理优化,系统地提升了音频合成的自然度、相似度和多样性。

例如,可以将该方案应用在说唱歌曲合成场景,让不会说唱或喜爱说唱的用户,简单通过读歌词录制10秒音频,快速生成相似音色的说唱歌曲,大大满足个性化需求。

(三)想:变声&音效&音色识别&语音评价方向

传统音频技术已发展多年,很多技术已经开始趋向成熟或到了瓶颈,而深度学习的到来,给音频技术带来了一次革新。我们通过将传统音频技术与深度学习技术相结合,有效地结合了二者的优点,研发了一套移动端变声&音效&音色识别&语音评价系统。在音色效果的丰富性、音色识别的准确性和鲁棒性、语音评价的多维度上,实现了全方位的能力提升,取得了高于行业平均水平的效果。

该方案在音乐创作、线上K歌场景中为用户带来了全新的互动玩法,例如在线上K歌打分玩法中,能够结合音高、节奏、吐字、气息等多维度对用户的唱歌水平进行更加全面、客观的评价,进而帮助用户在轻松的歌唱环境中提升唱歌技能与结交好友。

二、大模型赋能数字安全升级

前面分享的主要是我们在技术创新上的一些成果,实际上我特别想借今天这个机会跟大家分享关于数字安全、关于社会责任的一些思考。

对于趣丸科技来讲,在追求科技创新的过程中,我们不仅希望通过技术去推动产业发展,也希望能利用技术的先进性更好地去承担作为科技公司的社会责任。

数字安全是一场没有硝烟的“战争”,这一点相信大家都深有体会。尤其在人工智能时代,数字安全问题呈现出前所未有的复杂性。它并非单点技术可以解决,而是需要由上至下、多方协同的体系化工程建设。

我们依托过去十年在安全攻防领域的实战经验和AI领域的双重专长,在合规的基础上,建立了新一代平台安全管控体系,具备可管可控、极速响应、高效定制、生态保障的特点,可以帮助企业进一步完善平台生态建设,为用户构建起更加风清气正的网络空间。

其中,我们利用自建算法模型,取得了囊括图片、文本、音频、视频等多模态内容的识别与审核能力。这里重点介绍我们的“特定人群文本识别”和“语音年龄识别”两大技术手段。

特定人群文本识别:采用单文本检测+上下文识别的方案。其中,单文本识别我们自研了通用的关键词匹配分析框架,支持多种匹配方式、支持自定义过滤条件、支持特殊标记等;上下文识别采用大模型进行复杂语义理解,我们将用户情绪因素纳入到了内容审核算法中,极大提高了对高风险音频的拦截准确度。

语音年龄识别:语音年龄识别是识别音频信号中是否含有某个年龄段的声音以及年龄标签对应的时间。我们采用语音自监督学习模型,通过语音数据高效的收集、处理、增强流程,以及帧级别置信度输出,使得对特定年龄段的声音识别准确率高达90%以上。

随着人工智能技术的发展,多模态智能有望融入更多应用场景,如影视、教育、直播、办公等各个领域,逐渐渗透到每个大众的生活中。然而,人工智能技术今天依然面临着许多根本性的问题没有解决,如应用门槛依然不低、算力与电力的紧缺、法律与伦理等复杂问题。

AI的浪潮已经来临,应用层的黄金机会正等待着我们去发掘,站在历史的重要交汇点,趣丸科技在人工智能领域的投入初见成效。接下来,我们会继续秉承“向下扎根,向上生长”的信念,我们认为只有不断向下夯实底层技术能力,构建属于自己的技术护城河,才能让技术在更多的领域向上“开花结果”,最终带领公司顺利地穿越周期。

谢谢!

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-05-24 23:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

解锁多模态智能新范式,趣丸科技AI应用斩获行业标杆案例
5月24日,36氪“新质生产力·AIPartner大会”于北京盛大启幕。大会以“我被AI赋能了”为主题,聚焦AI场景与应用端
2024-05-28 10:00:00
...顾、智能投研和智能投教等场景,助力金融机构打造新质生产力。财跃星辰控股股东代表、界面财联社董事长章茜表示,建设金融大模型,关键是行业落地。财跃星辰坚持从金融机构的需求痛点出发
2024-03-24 00:30:00
群核科技(酷家乐)陈卓:用多模态AI助理赋能设计产业,用合成数据服务反哺AI | 新质生产力·AI Partner大会
...。聚焦AI领域的“赋能者”与“被赋能者”,36氪“新质生产力·AI Partner大会”以“我被AI赋能了”为主题
2024-05-28 09:06:00
...务、智能投顾、智能投研等场景,助力金融机构打造新质生产力。
2024-03-24 04:26:00
破晓之光:2025 ChinaJoy AIGC大会圆满召开 | ChinaJoy2025
...五分钟实现从灵感到网站生成。扣子,正在用 Agent 重塑生产力。 扣子开发平台技术负责人 颜伟志 新智慧游戏创始人陈迪表示
2025-08-03 07:45:00
AI的存在并非取代人类,人类终将找到与AI共生之道|2025WAIC财经下午茶
...指出,教育行业存在显著的供需不平衡,而大模型带来的生产力变革,有望通过复刻优秀教师、为每个孩子配备数字分身,破解优质资源稀缺难题,实现个性化教育。李通表示,产品落地经历了从A
2025-07-27 21:07:00
...化AI通用大模型开源开放。“数字经济时代,算力是新质生产力,算力网是促进全国范围内各类算力大规模调度运营的数字基础设施,构建全国一体化算力网、推动算力基础设施化是国家现代化的
2024-06-01 06:55:00
上海:加速实施“模塑申城”
...其中,代码小浣熊2.0是面向软件研发的,已经脱离了个人生产力工具的范畴,成为一个完整面向个人和企业软件研发端到端的解决方案。 为赋能更多场景,办公小浣熊也集成了代码模型的能
2025-02-20 15:49:00
百度副总裁、文库事业部负责人王颖:创作新纪元,人人都是内容创作者 | 新质生产力·AI Partner大会
...。聚焦AI领域的“赋能者”与“被赋能者”,36氪“新质生产力·AI Partner大会”以“我被AI赋能了”为主题
2024-05-24 22:22:00
更多关于科技的资讯:
集萃智造产业化基地项目开工,开启规模化量产新篇章未来三年力争实现年产近万台智能机器人南报网讯(通讯员芦玲玲记者徐宁)记者昨天从江苏集萃智能制造技术研究所有限公司(以下简称“集萃智造”)获悉
2025-09-04 07:40:00
山东移动日照分公司携手山东鲜醇乳业打造5G智能工厂 全流程赋能乳业生产新标杆
鲁网9月3日讯在数字化浪潮推动传统产业转型升级的背景下,山东移动日照分公司助力山东鲜醇乳业有限公司成功入选《2025年5G工厂名录》
2025-09-03 17:12:00
当晚期肺癌患者仅需支付最低207元、最高千余元的保费,即可通过“穗新保”全额报销高达30万元的质子治疗费用,重燃高质量生活希望时
2025-09-03 17:13:00
山东移动日照分公司:数智转型,打造高端板材涂镀产业新标杆
鲁网9月3日讯日照市昱岚新材料有限公司招商引资项目总投资达 63 亿元,目标打造全国最具竞争力的马口铁生产基地。项目分三期建设
2025-09-03 17:14:00
短视频平台丰富了公众的日常生活,提供了公众所需的各类信息,近年来,越来越多的人通过短视频平台向公众传播医学知识,但这些内容并非全部真实可信
2025-09-03 21:24:00
夏末秋初求职盛宴,山东省人力资源市场喊你来“挑”工作啦!
金九银十求职季,山东省人力资源市场为广大求职者准备了一系列精彩纷呈的招聘活动,无论是刚踏出校园的应届生,还是寻求职业转型的职场人
2025-09-03 18:51:00
吉哒哒生炸鸡架盛唐荟店开业,凭差异化优势领跑行业
近日,炸鸡品类新势力——济南星瀚途旗下吉哒哒生炸鸡架盛唐荟店正式开业,持续引发市场关注。开业当日,现场食客络绎不绝,人气火爆
2025-09-03 18:57:00
豪米客鲜烤牛肉拌饭以特色引领韩式餐饮新潮流
当下餐饮行业竞争日趋白热化,同质化严重的赛道已难见增长红利,而那些能精准捕捉消费需求、构建独特记忆点的特色品类,正凭借差异化优势突围而出
2025-09-03 18:59:00
2025年十大品牌软骨素榜单正式出炉,经过对市场口碑、产品配方、科研背景、用户反馈及认证资质等多维度综合评估,以下五款氨糖软骨素产品脱颖而出
2025-09-03 17:10:00
技术驱动增长:巨星AI智能体系统助力巨星优选破解奶茶行业营销瓶颈
在数字经济迅猛发展的当下,人工智能技术正逐步成为企业提升运营效率、实现精准营销的核心驱动力。巨星优选积极引入先进的"巨星AI智能体"系统
2025-09-03 17:10:00
IFA2025开幕在即,海信AI技术引领未来生活方式变革
9月5日,一年一度的IFA德国柏林消费电子展即将开启。今年IFA以“创新、互联、可持续(Innovation,Connectivity
2025-09-03 11:18:00
外卖小票单印“霸总小说” 奶茶店被网友疯狂“催更”
近日,奶茶店因在外卖小票单上印有“霸总小说”内容而引发网友热议。网友晒出自己购买“茉莉奶白”的奶茶,奶茶小票上印有一段“霸总小说”
2025-09-03 14:26:00
伙伴收入同比增长208% 百度智能云“大模型行业合伙人计划”上新
近日,“2025 百度云智大会·渠道生态专题论坛”在北京举办。此前国务院印发《关于深入实施“人工智能+”行动的意见》指出
2025-09-03 14:44:00
2025《戈·局》炉边对话即将于杭州举行
9月16日,一场没有宏大口号、没有程式化发言的企业家对话,将在杭州钱塘江南岸隆重开启。它既非论坛,亦非峰会,而是一场名为《戈·局》的炉边对话
2025-09-03 14:46:00
Small Sciences Symposium圆满收官——Small 20周年庆典镌刻中国纳米“高光时刻”
9月1日,全球领先的出版机构约翰威立国际出版集团(Wiley)主办的第五届 Wiley ChinaNANO Small Sciences Symposium 在 划下圆满句点
2025-09-03 14:47:00