• 我的订阅
  • 科技

趣丸科技副总裁兼CTO谢睿:多模态智能激发应用新场景 | 新质生产力·AI Partner大会

类别:科技 发布时间:2024-05-24 22:22:00 来源:36氪

5月24日,36氪“新质生产力·AI Partner大会”于北京环球贸易中心正式拉开帷幕。大会聚焦AI场景与应用端,分为“AI能为我们做什么”和“我被AI赋能了”两大篇章。现场汇聚来自蚂蚁集团、联想、OPPO、百度、英特尔等企业的AI领域先锋者,以“赋能者”与“被赋能者”的不同视角,共同探讨AI技术如何“爆改”千行百业。

以下为趣丸科技副总裁兼CTO 谢睿演讲实录。

趣丸科技副总裁兼CTO谢睿:多模态智能激发应用新场景 | 新质生产力·AI Partner大会

趣丸科技副总裁兼CTO 谢睿

大家下午好!我是趣丸科技的谢睿。

很荣幸能够受邀参加36氪AI Partner大会。今天我的演讲主题是《多模态智能激发应用新场景》,借这个场合与各位新老朋友分享趣丸科技在人工智能方面的最新探索成果,以及赋能智能音频和数字安全方面的一些思考。

首先,请允许我简单介绍一下趣丸科技。

我们是一家成立于2014年的国家高新技术企业,可能有些朋友对我们的兴趣社交产品TT语音和TT电竞业务比较熟悉。得益于公司十年积累的技术自研能力,我们也构建了全栈式AI交互技术产业生态,专注人工智能交互前沿技术研究和提供企业级解决方案。

我们目前围绕四个大模型(生成式3D大模型、生成式音频大模型、生成式动作大模型、对话大模型)在开展技术自研,后续将推动规模化落地应用。

前段时间GPT-4o的问世,相信大家都看到很多关于多模态智能的讨论。多模态使得人工智能可以像人类一样感知和理解音频、文本、图像、视频等多种模态信息,并与人类进行更加自然高效的交互,展现出了强大的功能和广泛的商业应用前景。

多模态能力是实现通用人工智能的重要路径之一,也是趣丸科技人工智能技术的重点投入方向。我们认为AI竞争归根结底是落地速度的竞争,新技术的真正繁荣,取决于应用的繁荣。

这几年,我们将多模态能力融入公司技术研发体系,并结合长期积累的用户优势,探索出了经过市场和用户验证的应用成果。这里,我主要选取了两个案例来做分享:

一、智能音频赋能创新玩法

在智能音频领域,我们的技术能力已经实现了数据层、算法层到应用层、接入层的全方位覆盖,智能音频也是趣丸科技与生俱来的技术优势。

如何利用智能音频技术解决创新玩法设计和提升用户体验?

具体来说,我们从听、说、想三部分来进行思路拆解:

首先要让AI能听懂用户的声音,正确识别声音中的文本信息、音频属性信息等;

其次能参与用户互动,比如用户可以进行实时的语音交流、调整音色,打造更多新奇体验;

第三就是能理解信息中蕴含的意思,理解用户的意图、情绪状态,帮助我们做出合理的响应。

分析好思路后,我们要做的是寻找解决方案,这个解决方案必须满足三大指标要求,即算法效果准确、模型预测的性能要最优、算法推理延时小于我们要求的阈值,保障用户能有良好的体验。

经过长时间的迭代与验证,我们自研了一套端云协同三维一体智音体系,它主要在移动端语音识别、音色克隆TTS、音色转换、语音评价等方面实现技术突破,在安全可信范围内,有效解决用户在即时语音场景下的语音沟通问题,且为用户提供了丰富的音频玩法。可落地应用于在线音频、社交、语音类产品中。

总的来说,我们希望通过这套解决方案,让AI“更懂人话、更有才华、更通人性”,切实地推动产品创新、增强用户体验。

(一)听:语音识别方向

在语音识别方向,我们主要基于特征和对比学习的模型蒸馏技术,以及对流式语音识别模型RNNT的一系列算法改进,包括跳帧解码、惩罚延迟以及输出抑制。此外,我们还借助强大的大模型进行模型微调和数据增强,最终整合端上神经网络计算框架NCNN的改造,打造了一款具备低延迟、低资源消耗和高准确率、高安全性的的移动端轻量级语音识别方案。

它适配不同口音、语速和环境噪声,可应用在语音直播、多人聊天等场景。例如,多人聊天场景中,我们帮助客户开发出“字幕生成”功能,可以毫秒级完成语音识别音转字,方便用户交流。

(二)说:音色克隆TTS方向

在音色克隆方向,传统的语音克隆需要大量的数据集来训练模型,少批量数据会导致模型效果不佳,当使用少批量的数据进行语音克隆时,存在克隆音色相似度低,合成音频存在底噪大、漏字、情感自然度差等问题。

因此我们开发出了一种基于深度学习技术的云端语音克隆方案,自研完善音色克隆TTS技术。该方案通过高质量音频数据收集处理,在模型中加入alignment loss对齐模块、语言学信息、prosody encoder模块等,再经过云端推理优化,系统地提升了音频合成的自然度、相似度和多样性。

例如,可以将该方案应用在说唱歌曲合成场景,让不会说唱或喜爱说唱的用户,简单通过读歌词录制10秒音频,快速生成相似音色的说唱歌曲,大大满足个性化需求。

(三)想:变声&音效&音色识别&语音评价方向

传统音频技术已发展多年,很多技术已经开始趋向成熟或到了瓶颈,而深度学习的到来,给音频技术带来了一次革新。我们通过将传统音频技术与深度学习技术相结合,有效地结合了二者的优点,研发了一套移动端变声&音效&音色识别&语音评价系统。在音色效果的丰富性、音色识别的准确性和鲁棒性、语音评价的多维度上,实现了全方位的能力提升,取得了高于行业平均水平的效果。

该方案在音乐创作、线上K歌场景中为用户带来了全新的互动玩法,例如在线上K歌打分玩法中,能够结合音高、节奏、吐字、气息等多维度对用户的唱歌水平进行更加全面、客观的评价,进而帮助用户在轻松的歌唱环境中提升唱歌技能与结交好友。

二、大模型赋能数字安全升级

前面分享的主要是我们在技术创新上的一些成果,实际上我特别想借今天这个机会跟大家分享关于数字安全、关于社会责任的一些思考。

对于趣丸科技来讲,在追求科技创新的过程中,我们不仅希望通过技术去推动产业发展,也希望能利用技术的先进性更好地去承担作为科技公司的社会责任。

数字安全是一场没有硝烟的“战争”,这一点相信大家都深有体会。尤其在人工智能时代,数字安全问题呈现出前所未有的复杂性。它并非单点技术可以解决,而是需要由上至下、多方协同的体系化工程建设。

我们依托过去十年在安全攻防领域的实战经验和AI领域的双重专长,在合规的基础上,建立了新一代平台安全管控体系,具备可管可控、极速响应、高效定制、生态保障的特点,可以帮助企业进一步完善平台生态建设,为用户构建起更加风清气正的网络空间。

其中,我们利用自建算法模型,取得了囊括图片、文本、音频、视频等多模态内容的识别与审核能力。这里重点介绍我们的“特定人群文本识别”和“语音年龄识别”两大技术手段。

特定人群文本识别:采用单文本检测+上下文识别的方案。其中,单文本识别我们自研了通用的关键词匹配分析框架,支持多种匹配方式、支持自定义过滤条件、支持特殊标记等;上下文识别采用大模型进行复杂语义理解,我们将用户情绪因素纳入到了内容审核算法中,极大提高了对高风险音频的拦截准确度。

语音年龄识别:语音年龄识别是识别音频信号中是否含有某个年龄段的声音以及年龄标签对应的时间。我们采用语音自监督学习模型,通过语音数据高效的收集、处理、增强流程,以及帧级别置信度输出,使得对特定年龄段的声音识别准确率高达90%以上。

随着人工智能技术的发展,多模态智能有望融入更多应用场景,如影视、教育、直播、办公等各个领域,逐渐渗透到每个大众的生活中。然而,人工智能技术今天依然面临着许多根本性的问题没有解决,如应用门槛依然不低、算力与电力的紧缺、法律与伦理等复杂问题。

AI的浪潮已经来临,应用层的黄金机会正等待着我们去发掘,站在历史的重要交汇点,趣丸科技在人工智能领域的投入初见成效。接下来,我们会继续秉承“向下扎根,向上生长”的信念,我们认为只有不断向下夯实底层技术能力,构建属于自己的技术护城河,才能让技术在更多的领域向上“开花结果”,最终带领公司顺利地穿越周期。

谢谢!

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-05-24 23:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

解锁多模态智能新范式,趣丸科技AI应用斩获行业标杆案例
5月24日,36氪“新质生产力·AIPartner大会”于北京盛大启幕。大会以“我被AI赋能了”为主题,聚焦AI场景与应用端
2024-05-28 10:00:00
...顾、智能投研和智能投教等场景,助力金融机构打造新质生产力。财跃星辰控股股东代表、界面财联社董事长章茜表示,建设金融大模型,关键是行业落地。财跃星辰坚持从金融机构的需求痛点出发
2024-03-24 00:30:00
群核科技(酷家乐)陈卓:用多模态AI助理赋能设计产业,用合成数据服务反哺AI | 新质生产力·AI Partner大会
...。聚焦AI领域的“赋能者”与“被赋能者”,36氪“新质生产力·AI Partner大会”以“我被AI赋能了”为主题
2024-05-28 09:06:00
...务、智能投顾、智能投研等场景,助力金融机构打造新质生产力。
2024-03-24 04:26:00
破晓之光:2025 ChinaJoy AIGC大会圆满召开 | ChinaJoy2025
...五分钟实现从灵感到网站生成。扣子,正在用 Agent 重塑生产力。 扣子开发平台技术负责人 颜伟志 新智慧游戏创始人陈迪表示
2025-08-03 07:45:00
AI的存在并非取代人类,人类终将找到与AI共生之道|2025WAIC财经下午茶
...指出,教育行业存在显著的供需不平衡,而大模型带来的生产力变革,有望通过复刻优秀教师、为每个孩子配备数字分身,破解优质资源稀缺难题,实现个性化教育。李通表示,产品落地经历了从A
2025-07-27 21:07:00
...化AI通用大模型开源开放。“数字经济时代,算力是新质生产力,算力网是促进全国范围内各类算力大规模调度运营的数字基础设施,构建全国一体化算力网、推动算力基础设施化是国家现代化的
2024-06-01 06:55:00
上海:加速实施“模塑申城”
...其中,代码小浣熊2.0是面向软件研发的,已经脱离了个人生产力工具的范畴,成为一个完整面向个人和企业软件研发端到端的解决方案。 为赋能更多场景,办公小浣熊也集成了代码模型的能
2025-02-20 15:49:00
百度副总裁、文库事业部负责人王颖:创作新纪元,人人都是内容创作者 | 新质生产力·AI Partner大会
...。聚焦AI领域的“赋能者”与“被赋能者”,36氪“新质生产力·AI Partner大会”以“我被AI赋能了”为主题
2024-05-24 22:22:00
更多关于科技的资讯:
近日,平安银行“基于iDeal平台的AI做市报价机器人项目”荣膺2025年深圳金融创新大赛二等奖。该大赛由深圳市地方金融管理局
2026-04-04 15:34:00
4月4日消息,千问AI打车清明假期订单量周环比增长超1500%,用户使用规模极速攀升。该功能于3月23日上线,距今不足两周
2026-04-04 11:41:00
千问3.6Plus大模型登顶全球模型调用排行榜首
4月4日消息,发布仅1天的千问新模型Qwen3.6-Plus,冲上全球知名大模型API调用平台OpenRouter的日榜榜首
2026-04-04 11:41:00
涌金楼丨浙企正在资本市场进行一场“春耕”
浙江企业正在资本市场进行一场“春耕”。截至3月31日,13家浙企登陆港交所、上交所、北交所。短短三个月,春意渐浓——这正是观察浙江产业升级的鲜活切面
2026-04-04 12:46:00
数智赋能新体验 山东移动高唐分公司助力宾馆智慧升级
鲁网4月3日讯随着人工智能、物联网等数字技术的快速发展,智慧化服务正加速融入日常生活。近日,山东移动高唐分公司充分发挥全光网络与云网能力
2026-04-04 08:27:00
中新经纬4月3日电 (宋亚芬)“人车家互联”迎来政策层面的推动。工信部等九部门近日联合印发的《推动物联网产业创新发展行动方案(2026-2028年)》中
2026-04-04 11:00:00
近日,世界超级摩托车锦标赛葡萄牙站赛场上传来好消息,中国摩托车制造商“张雪机车”以近4秒的绝对优势获得冠军,成绩断崖式碾压杜卡迪
2026-04-04 08:54:00
厦企造具身智能机器人加速商业化场景落地
厦企小鹭智能研发的四足巡检机器人,可承担全天候智能巡检任务。(小鹭智能 供图)厦门网讯(厦门日报记者 林露虹 实习生 陈慧)除了登台表演
2026-04-04 08:43:00
亿纬锂能6.9MWh储能系统亮相ESIE 2026,以确定性量产交付领跑储能大电池赛道
当储能行业走过概念验证的探索期,真正的考验才刚刚开始。过去两年,从280Ah、300Ah到500Ah+,从5MWh到6MWh以上
2026-04-03 21:50:00
华之杰(603400)定位于智能控制行业,致力于以锂电池电源管理、智能控制、无刷电机驱动和控制等技术为核心,主要为锂电电动工具
2026-04-03 22:31:00
绿联与ATL达成战略合作,共同打造充电宝新国标安全电芯
近期,中国科技品牌绿联与宁德新能源科技有限公司(ATL)正式签署战略合作协议。双方将围绕符合新国标的移动电源电芯领域展开深度协同
2026-04-03 21:48:00
京东团购上线,全国百城百万店开启试运营,单单送茶饮
多彩贵州网讯 4月3日,京东团购上线,全国首批百城百万餐饮门店开启试运营。消费者登录京东APP进入“秒送”频道,点击“美食团购”标识
2026-04-03 20:00:00
人心同向,产业同频 第114届全国糖酒会圆满收官
“过完春节过春糖”——第114届全国糖酒商品交易会于3月26日至28日在成都举办,配套的2026“春糖季”展城融合促消费活动也于3月29日圆满收官
2026-04-03 17:24:00
津西工业机器人减速机项目在常州开工
河北新闻网讯(白小卉、王育民)日前,以绿色化、智能化为特色的中国东方集团津西工业机器人减速机项目在常州高新区开工,标志着津西集团在高端智能制造新赛道上迈出重要一步
2026-04-03 19:20:00