• 我的订阅
  • 科技

趣丸科技副总裁兼CTO谢睿:多模态智能激发应用新场景 | 新质生产力·AI Partner大会

类别:科技 发布时间:2024-05-24 22:22:00 来源:36氪

5月24日,36氪“新质生产力·AI Partner大会”于北京环球贸易中心正式拉开帷幕。大会聚焦AI场景与应用端,分为“AI能为我们做什么”和“我被AI赋能了”两大篇章。现场汇聚来自蚂蚁集团、联想、OPPO、百度、英特尔等企业的AI领域先锋者,以“赋能者”与“被赋能者”的不同视角,共同探讨AI技术如何“爆改”千行百业。

以下为趣丸科技副总裁兼CTO 谢睿演讲实录。

趣丸科技副总裁兼CTO谢睿:多模态智能激发应用新场景 | 新质生产力·AI Partner大会

趣丸科技副总裁兼CTO 谢睿

大家下午好!我是趣丸科技的谢睿。

很荣幸能够受邀参加36氪AI Partner大会。今天我的演讲主题是《多模态智能激发应用新场景》,借这个场合与各位新老朋友分享趣丸科技在人工智能方面的最新探索成果,以及赋能智能音频和数字安全方面的一些思考。

首先,请允许我简单介绍一下趣丸科技。

我们是一家成立于2014年的国家高新技术企业,可能有些朋友对我们的兴趣社交产品TT语音和TT电竞业务比较熟悉。得益于公司十年积累的技术自研能力,我们也构建了全栈式AI交互技术产业生态,专注人工智能交互前沿技术研究和提供企业级解决方案。

我们目前围绕四个大模型(生成式3D大模型、生成式音频大模型、生成式动作大模型、对话大模型)在开展技术自研,后续将推动规模化落地应用。

前段时间GPT-4o的问世,相信大家都看到很多关于多模态智能的讨论。多模态使得人工智能可以像人类一样感知和理解音频、文本、图像、视频等多种模态信息,并与人类进行更加自然高效的交互,展现出了强大的功能和广泛的商业应用前景。

多模态能力是实现通用人工智能的重要路径之一,也是趣丸科技人工智能技术的重点投入方向。我们认为AI竞争归根结底是落地速度的竞争,新技术的真正繁荣,取决于应用的繁荣。

这几年,我们将多模态能力融入公司技术研发体系,并结合长期积累的用户优势,探索出了经过市场和用户验证的应用成果。这里,我主要选取了两个案例来做分享:

一、智能音频赋能创新玩法

在智能音频领域,我们的技术能力已经实现了数据层、算法层到应用层、接入层的全方位覆盖,智能音频也是趣丸科技与生俱来的技术优势。

如何利用智能音频技术解决创新玩法设计和提升用户体验?

具体来说,我们从听、说、想三部分来进行思路拆解:

首先要让AI能听懂用户的声音,正确识别声音中的文本信息、音频属性信息等;

其次能参与用户互动,比如用户可以进行实时的语音交流、调整音色,打造更多新奇体验;

第三就是能理解信息中蕴含的意思,理解用户的意图、情绪状态,帮助我们做出合理的响应。

分析好思路后,我们要做的是寻找解决方案,这个解决方案必须满足三大指标要求,即算法效果准确、模型预测的性能要最优、算法推理延时小于我们要求的阈值,保障用户能有良好的体验。

经过长时间的迭代与验证,我们自研了一套端云协同三维一体智音体系,它主要在移动端语音识别、音色克隆TTS、音色转换、语音评价等方面实现技术突破,在安全可信范围内,有效解决用户在即时语音场景下的语音沟通问题,且为用户提供了丰富的音频玩法。可落地应用于在线音频、社交、语音类产品中。

总的来说,我们希望通过这套解决方案,让AI“更懂人话、更有才华、更通人性”,切实地推动产品创新、增强用户体验。

(一)听:语音识别方向

在语音识别方向,我们主要基于特征和对比学习的模型蒸馏技术,以及对流式语音识别模型RNNT的一系列算法改进,包括跳帧解码、惩罚延迟以及输出抑制。此外,我们还借助强大的大模型进行模型微调和数据增强,最终整合端上神经网络计算框架NCNN的改造,打造了一款具备低延迟、低资源消耗和高准确率、高安全性的的移动端轻量级语音识别方案。

它适配不同口音、语速和环境噪声,可应用在语音直播、多人聊天等场景。例如,多人聊天场景中,我们帮助客户开发出“字幕生成”功能,可以毫秒级完成语音识别音转字,方便用户交流。

(二)说:音色克隆TTS方向

在音色克隆方向,传统的语音克隆需要大量的数据集来训练模型,少批量数据会导致模型效果不佳,当使用少批量的数据进行语音克隆时,存在克隆音色相似度低,合成音频存在底噪大、漏字、情感自然度差等问题。

因此我们开发出了一种基于深度学习技术的云端语音克隆方案,自研完善音色克隆TTS技术。该方案通过高质量音频数据收集处理,在模型中加入alignment loss对齐模块、语言学信息、prosody encoder模块等,再经过云端推理优化,系统地提升了音频合成的自然度、相似度和多样性。

例如,可以将该方案应用在说唱歌曲合成场景,让不会说唱或喜爱说唱的用户,简单通过读歌词录制10秒音频,快速生成相似音色的说唱歌曲,大大满足个性化需求。

(三)想:变声&音效&音色识别&语音评价方向

传统音频技术已发展多年,很多技术已经开始趋向成熟或到了瓶颈,而深度学习的到来,给音频技术带来了一次革新。我们通过将传统音频技术与深度学习技术相结合,有效地结合了二者的优点,研发了一套移动端变声&音效&音色识别&语音评价系统。在音色效果的丰富性、音色识别的准确性和鲁棒性、语音评价的多维度上,实现了全方位的能力提升,取得了高于行业平均水平的效果。

该方案在音乐创作、线上K歌场景中为用户带来了全新的互动玩法,例如在线上K歌打分玩法中,能够结合音高、节奏、吐字、气息等多维度对用户的唱歌水平进行更加全面、客观的评价,进而帮助用户在轻松的歌唱环境中提升唱歌技能与结交好友。

二、大模型赋能数字安全升级

前面分享的主要是我们在技术创新上的一些成果,实际上我特别想借今天这个机会跟大家分享关于数字安全、关于社会责任的一些思考。

对于趣丸科技来讲,在追求科技创新的过程中,我们不仅希望通过技术去推动产业发展,也希望能利用技术的先进性更好地去承担作为科技公司的社会责任。

数字安全是一场没有硝烟的“战争”,这一点相信大家都深有体会。尤其在人工智能时代,数字安全问题呈现出前所未有的复杂性。它并非单点技术可以解决,而是需要由上至下、多方协同的体系化工程建设。

我们依托过去十年在安全攻防领域的实战经验和AI领域的双重专长,在合规的基础上,建立了新一代平台安全管控体系,具备可管可控、极速响应、高效定制、生态保障的特点,可以帮助企业进一步完善平台生态建设,为用户构建起更加风清气正的网络空间。

其中,我们利用自建算法模型,取得了囊括图片、文本、音频、视频等多模态内容的识别与审核能力。这里重点介绍我们的“特定人群文本识别”和“语音年龄识别”两大技术手段。

特定人群文本识别:采用单文本检测+上下文识别的方案。其中,单文本识别我们自研了通用的关键词匹配分析框架,支持多种匹配方式、支持自定义过滤条件、支持特殊标记等;上下文识别采用大模型进行复杂语义理解,我们将用户情绪因素纳入到了内容审核算法中,极大提高了对高风险音频的拦截准确度。

语音年龄识别:语音年龄识别是识别音频信号中是否含有某个年龄段的声音以及年龄标签对应的时间。我们采用语音自监督学习模型,通过语音数据高效的收集、处理、增强流程,以及帧级别置信度输出,使得对特定年龄段的声音识别准确率高达90%以上。

随着人工智能技术的发展,多模态智能有望融入更多应用场景,如影视、教育、直播、办公等各个领域,逐渐渗透到每个大众的生活中。然而,人工智能技术今天依然面临着许多根本性的问题没有解决,如应用门槛依然不低、算力与电力的紧缺、法律与伦理等复杂问题。

AI的浪潮已经来临,应用层的黄金机会正等待着我们去发掘,站在历史的重要交汇点,趣丸科技在人工智能领域的投入初见成效。接下来,我们会继续秉承“向下扎根,向上生长”的信念,我们认为只有不断向下夯实底层技术能力,构建属于自己的技术护城河,才能让技术在更多的领域向上“开花结果”,最终带领公司顺利地穿越周期。

谢谢!

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-05-24 23:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

解锁多模态智能新范式,趣丸科技AI应用斩获行业标杆案例
5月24日,36氪“新质生产力·AIPartner大会”于北京盛大启幕。大会以“我被AI赋能了”为主题,聚焦AI场景与应用端
2024-05-28 10:00:00
...顾、智能投研和智能投教等场景,助力金融机构打造新质生产力。财跃星辰控股股东代表、界面财联社董事长章茜表示,建设金融大模型,关键是行业落地。财跃星辰坚持从金融机构的需求痛点出发
2024-03-24 00:30:00
群核科技(酷家乐)陈卓:用多模态AI助理赋能设计产业,用合成数据服务反哺AI | 新质生产力·AI Partner大会
...。聚焦AI领域的“赋能者”与“被赋能者”,36氪“新质生产力·AI Partner大会”以“我被AI赋能了”为主题
2024-05-28 09:06:00
...务、智能投顾、智能投研等场景,助力金融机构打造新质生产力。
2024-03-24 04:26:00
破晓之光:2025 ChinaJoy AIGC大会圆满召开 | ChinaJoy2025
...五分钟实现从灵感到网站生成。扣子,正在用 Agent 重塑生产力。 扣子开发平台技术负责人 颜伟志 新智慧游戏创始人陈迪表示
2025-08-03 07:45:00
AI的存在并非取代人类,人类终将找到与AI共生之道|2025WAIC财经下午茶
...指出,教育行业存在显著的供需不平衡,而大模型带来的生产力变革,有望通过复刻优秀教师、为每个孩子配备数字分身,破解优质资源稀缺难题,实现个性化教育。李通表示,产品落地经历了从A
2025-07-27 21:07:00
...化AI通用大模型开源开放。“数字经济时代,算力是新质生产力,算力网是促进全国范围内各类算力大规模调度运营的数字基础设施,构建全国一体化算力网、推动算力基础设施化是国家现代化的
2024-06-01 06:55:00
上海:加速实施“模塑申城”
...其中,代码小浣熊2.0是面向软件研发的,已经脱离了个人生产力工具的范畴,成为一个完整面向个人和企业软件研发端到端的解决方案。 为赋能更多场景,办公小浣熊也集成了代码模型的能
2025-02-20 15:49:00
百度副总裁、文库事业部负责人王颖:创作新纪元,人人都是内容创作者 | 新质生产力·AI Partner大会
...。聚焦AI领域的“赋能者”与“被赋能者”,36氪“新质生产力·AI Partner大会”以“我被AI赋能了”为主题
2024-05-24 22:22:00
更多关于科技的资讯:
PureblueAI清蓝完成数千万元天使轮融资,发布首款AI口碑营销数字员工
近日,国内AI营销技术服务公司PureblueAI清蓝正式宣布完成数千万元人民币天使轮融资。本轮融资由祥峰中国(Vertex China)领投
2026-03-04 14:03:00
舒尔推出SLX-D+无线系统:专业人士信赖之选,面向广大用户精心打造
扩展功能全面升级,为这款备受信赖的无线产品系列注入了全国范围的部署实力、便捷的远程管理能力,以及高效的反馈抑制技术舒尔公司全新推出了SLX-D+无线系统
2026-03-04 14:04:00
鲁网3月4日讯(记者 杜方奇)近日,记者走进山东省枣庄市池明生物科技有限公司(以下简称“池明生物”),实地感受这家本土日化标杆企业的发展现状——智能化生产车间内
2026-03-04 12:19:00
全国政协委员陈仙辉:建议以超导技术破解AI数据中心能耗难题
大皖新闻讯 “人工智能数据中心正朝着百兆瓦、吉瓦量级迈进,传统技术路线已难以为继,高温超导技术是破局能耗问题的关键方向
2026-03-04 13:36:00
全国政协委员陆铭:千问春节下单近2亿次,证明“AI+消费”巨大潜力
全国两会召开之际,如何进一步释放内需潜力成为各界关注焦点。全国政协委员、著名经济学家陆铭在接受记者采访时表示,春节期间用户在千问上“一句话下单”近2亿次
2026-03-04 11:40:00
山东移动滨州分公司:科技赋韵千年曲会 匠心护航文化传承
鲁网3月4日讯弦鼓传古韵,5G 润乡音。2026 年 2 月 28 日,胡集书会在滨州惠民正式启幕。滨州移动以“科技赋能
2026-03-04 11:07:00
鲁网3月4日讯在AI创业浪潮下,市南区聚焦OPC单人AI创业服务,打造高效、暖心的OPC注册环境,激发个体AI创业活力
2026-03-04 10:31:00
中国网3月4日讯 据国家安全部微信公众号消息,“【电子发票】张某某先生,您的发票已开好,请点击下载”——当收件箱弹出这类带着你真实姓名的电子邮件
2026-03-04 07:58:00
玉磊 柳州工学院一、人工智能在财务报表分析中的应用现状人工智能技术在财务报表分析中的首次应用,源于自然语言处理(NLP)和机器学习(ML)的发展
2026-03-04 07:08:00
金皓摘要:异常检测作为数据分析和智能系统中的重要研究方向,广泛应用于金融风控、工业监测、网络安全和医疗诊断等领域。传统统计方法和近年来快速发展的深度学习方法
2026-03-04 07:08:00
烟台联通圆满完成2026“百花汇海”山东秧歌会通信保障
胶东在线3月3日讯3月1日,由山东省文学艺术界联合会等单位指导主办的2026“百花汇海”山东秧歌会在烟台海阳市河清岛体育场盛大举行
2026-03-03 20:29:00
涌金楼丨浙江经济第一区确立“首要任务”
余杭“十四五”五年成绩单。受访者供图3月2日,余杭区召开经济高质量发展大会。这是余杭连续第五年以“高质量发展”为题召开大会
2026-03-03 22:27:00
江南时报讯 凌晨2点,扬子江数字视听产业园的“短剧公寓”里,张弛仍然坐在电脑前,屏幕上是他十多个海外短视频账号的数据反馈——当天发布的97条短剧切片
2026-03-03 22:48:00
河北特色产业集群数字金融平台助力解决企业融资难银企互联 点“数”成金“通过平台提供的‘数字信用’,仅用5天我们就拿到了1700万元的授信贷款
2026-03-03 17:55:00