• 我的订阅
  • 科技

趣丸科技副总裁兼CTO谢睿:多模态智能激发应用新场景 | 新质生产力·AI Partner大会

类别:科技 发布时间:2024-05-24 22:22:00 来源:36氪

5月24日,36氪“新质生产力·AI Partner大会”于北京环球贸易中心正式拉开帷幕。大会聚焦AI场景与应用端,分为“AI能为我们做什么”和“我被AI赋能了”两大篇章。现场汇聚来自蚂蚁集团、联想、OPPO、百度、英特尔等企业的AI领域先锋者,以“赋能者”与“被赋能者”的不同视角,共同探讨AI技术如何“爆改”千行百业。

以下为趣丸科技副总裁兼CTO 谢睿演讲实录。

趣丸科技副总裁兼CTO谢睿:多模态智能激发应用新场景 | 新质生产力·AI Partner大会

趣丸科技副总裁兼CTO 谢睿

大家下午好!我是趣丸科技的谢睿。

很荣幸能够受邀参加36氪AI Partner大会。今天我的演讲主题是《多模态智能激发应用新场景》,借这个场合与各位新老朋友分享趣丸科技在人工智能方面的最新探索成果,以及赋能智能音频和数字安全方面的一些思考。

首先,请允许我简单介绍一下趣丸科技。

我们是一家成立于2014年的国家高新技术企业,可能有些朋友对我们的兴趣社交产品TT语音和TT电竞业务比较熟悉。得益于公司十年积累的技术自研能力,我们也构建了全栈式AI交互技术产业生态,专注人工智能交互前沿技术研究和提供企业级解决方案。

我们目前围绕四个大模型(生成式3D大模型、生成式音频大模型、生成式动作大模型、对话大模型)在开展技术自研,后续将推动规模化落地应用。

前段时间GPT-4o的问世,相信大家都看到很多关于多模态智能的讨论。多模态使得人工智能可以像人类一样感知和理解音频、文本、图像、视频等多种模态信息,并与人类进行更加自然高效的交互,展现出了强大的功能和广泛的商业应用前景。

多模态能力是实现通用人工智能的重要路径之一,也是趣丸科技人工智能技术的重点投入方向。我们认为AI竞争归根结底是落地速度的竞争,新技术的真正繁荣,取决于应用的繁荣。

这几年,我们将多模态能力融入公司技术研发体系,并结合长期积累的用户优势,探索出了经过市场和用户验证的应用成果。这里,我主要选取了两个案例来做分享:

一、智能音频赋能创新玩法

在智能音频领域,我们的技术能力已经实现了数据层、算法层到应用层、接入层的全方位覆盖,智能音频也是趣丸科技与生俱来的技术优势。

如何利用智能音频技术解决创新玩法设计和提升用户体验?

具体来说,我们从听、说、想三部分来进行思路拆解:

首先要让AI能听懂用户的声音,正确识别声音中的文本信息、音频属性信息等;

其次能参与用户互动,比如用户可以进行实时的语音交流、调整音色,打造更多新奇体验;

第三就是能理解信息中蕴含的意思,理解用户的意图、情绪状态,帮助我们做出合理的响应。

分析好思路后,我们要做的是寻找解决方案,这个解决方案必须满足三大指标要求,即算法效果准确、模型预测的性能要最优、算法推理延时小于我们要求的阈值,保障用户能有良好的体验。

经过长时间的迭代与验证,我们自研了一套端云协同三维一体智音体系,它主要在移动端语音识别、音色克隆TTS、音色转换、语音评价等方面实现技术突破,在安全可信范围内,有效解决用户在即时语音场景下的语音沟通问题,且为用户提供了丰富的音频玩法。可落地应用于在线音频、社交、语音类产品中。

总的来说,我们希望通过这套解决方案,让AI“更懂人话、更有才华、更通人性”,切实地推动产品创新、增强用户体验。

(一)听:语音识别方向

在语音识别方向,我们主要基于特征和对比学习的模型蒸馏技术,以及对流式语音识别模型RNNT的一系列算法改进,包括跳帧解码、惩罚延迟以及输出抑制。此外,我们还借助强大的大模型进行模型微调和数据增强,最终整合端上神经网络计算框架NCNN的改造,打造了一款具备低延迟、低资源消耗和高准确率、高安全性的的移动端轻量级语音识别方案。

它适配不同口音、语速和环境噪声,可应用在语音直播、多人聊天等场景。例如,多人聊天场景中,我们帮助客户开发出“字幕生成”功能,可以毫秒级完成语音识别音转字,方便用户交流。

(二)说:音色克隆TTS方向

在音色克隆方向,传统的语音克隆需要大量的数据集来训练模型,少批量数据会导致模型效果不佳,当使用少批量的数据进行语音克隆时,存在克隆音色相似度低,合成音频存在底噪大、漏字、情感自然度差等问题。

因此我们开发出了一种基于深度学习技术的云端语音克隆方案,自研完善音色克隆TTS技术。该方案通过高质量音频数据收集处理,在模型中加入alignment loss对齐模块、语言学信息、prosody encoder模块等,再经过云端推理优化,系统地提升了音频合成的自然度、相似度和多样性。

例如,可以将该方案应用在说唱歌曲合成场景,让不会说唱或喜爱说唱的用户,简单通过读歌词录制10秒音频,快速生成相似音色的说唱歌曲,大大满足个性化需求。

(三)想:变声&音效&音色识别&语音评价方向

传统音频技术已发展多年,很多技术已经开始趋向成熟或到了瓶颈,而深度学习的到来,给音频技术带来了一次革新。我们通过将传统音频技术与深度学习技术相结合,有效地结合了二者的优点,研发了一套移动端变声&音效&音色识别&语音评价系统。在音色效果的丰富性、音色识别的准确性和鲁棒性、语音评价的多维度上,实现了全方位的能力提升,取得了高于行业平均水平的效果。

该方案在音乐创作、线上K歌场景中为用户带来了全新的互动玩法,例如在线上K歌打分玩法中,能够结合音高、节奏、吐字、气息等多维度对用户的唱歌水平进行更加全面、客观的评价,进而帮助用户在轻松的歌唱环境中提升唱歌技能与结交好友。

二、大模型赋能数字安全升级

前面分享的主要是我们在技术创新上的一些成果,实际上我特别想借今天这个机会跟大家分享关于数字安全、关于社会责任的一些思考。

对于趣丸科技来讲,在追求科技创新的过程中,我们不仅希望通过技术去推动产业发展,也希望能利用技术的先进性更好地去承担作为科技公司的社会责任。

数字安全是一场没有硝烟的“战争”,这一点相信大家都深有体会。尤其在人工智能时代,数字安全问题呈现出前所未有的复杂性。它并非单点技术可以解决,而是需要由上至下、多方协同的体系化工程建设。

我们依托过去十年在安全攻防领域的实战经验和AI领域的双重专长,在合规的基础上,建立了新一代平台安全管控体系,具备可管可控、极速响应、高效定制、生态保障的特点,可以帮助企业进一步完善平台生态建设,为用户构建起更加风清气正的网络空间。

其中,我们利用自建算法模型,取得了囊括图片、文本、音频、视频等多模态内容的识别与审核能力。这里重点介绍我们的“特定人群文本识别”和“语音年龄识别”两大技术手段。

特定人群文本识别:采用单文本检测+上下文识别的方案。其中,单文本识别我们自研了通用的关键词匹配分析框架,支持多种匹配方式、支持自定义过滤条件、支持特殊标记等;上下文识别采用大模型进行复杂语义理解,我们将用户情绪因素纳入到了内容审核算法中,极大提高了对高风险音频的拦截准确度。

语音年龄识别:语音年龄识别是识别音频信号中是否含有某个年龄段的声音以及年龄标签对应的时间。我们采用语音自监督学习模型,通过语音数据高效的收集、处理、增强流程,以及帧级别置信度输出,使得对特定年龄段的声音识别准确率高达90%以上。

随着人工智能技术的发展,多模态智能有望融入更多应用场景,如影视、教育、直播、办公等各个领域,逐渐渗透到每个大众的生活中。然而,人工智能技术今天依然面临着许多根本性的问题没有解决,如应用门槛依然不低、算力与电力的紧缺、法律与伦理等复杂问题。

AI的浪潮已经来临,应用层的黄金机会正等待着我们去发掘,站在历史的重要交汇点,趣丸科技在人工智能领域的投入初见成效。接下来,我们会继续秉承“向下扎根,向上生长”的信念,我们认为只有不断向下夯实底层技术能力,构建属于自己的技术护城河,才能让技术在更多的领域向上“开花结果”,最终带领公司顺利地穿越周期。

谢谢!

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-05-24 23:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

解锁多模态智能新范式,趣丸科技AI应用斩获行业标杆案例
5月24日,36氪“新质生产力·AIPartner大会”于北京盛大启幕。大会以“我被AI赋能了”为主题,聚焦AI场景与应用端
2024-05-28 10:00:00
...顾、智能投研和智能投教等场景,助力金融机构打造新质生产力。财跃星辰控股股东代表、界面财联社董事长章茜表示,建设金融大模型,关键是行业落地。财跃星辰坚持从金融机构的需求痛点出发
2024-03-24 00:30:00
群核科技(酷家乐)陈卓:用多模态AI助理赋能设计产业,用合成数据服务反哺AI | 新质生产力·AI Partner大会
...。聚焦AI领域的“赋能者”与“被赋能者”,36氪“新质生产力·AI Partner大会”以“我被AI赋能了”为主题
2024-05-28 09:06:00
...务、智能投顾、智能投研等场景,助力金融机构打造新质生产力。
2024-03-24 04:26:00
破晓之光:2025 ChinaJoy AIGC大会圆满召开 | ChinaJoy2025
...五分钟实现从灵感到网站生成。扣子,正在用 Agent 重塑生产力。 扣子开发平台技术负责人 颜伟志 新智慧游戏创始人陈迪表示
2025-08-03 07:45:00
AI的存在并非取代人类,人类终将找到与AI共生之道|2025WAIC财经下午茶
...指出,教育行业存在显著的供需不平衡,而大模型带来的生产力变革,有望通过复刻优秀教师、为每个孩子配备数字分身,破解优质资源稀缺难题,实现个性化教育。李通表示,产品落地经历了从A
2025-07-27 21:07:00
...化AI通用大模型开源开放。“数字经济时代,算力是新质生产力,算力网是促进全国范围内各类算力大规模调度运营的数字基础设施,构建全国一体化算力网、推动算力基础设施化是国家现代化的
2024-06-01 06:55:00
上海:加速实施“模塑申城”
...其中,代码小浣熊2.0是面向软件研发的,已经脱离了个人生产力工具的范畴,成为一个完整面向个人和企业软件研发端到端的解决方案。 为赋能更多场景,办公小浣熊也集成了代码模型的能
2025-02-20 15:49:00
百度副总裁、文库事业部负责人王颖:创作新纪元,人人都是内容创作者 | 新质生产力·AI Partner大会
...。聚焦AI领域的“赋能者”与“被赋能者”,36氪“新质生产力·AI Partner大会”以“我被AI赋能了”为主题
2024-05-24 22:22:00
更多关于科技的资讯:
中新经纬2月11日电 据国家市场监督管理总局网站消息,2月4日,国务院反垄断反不正当竞争委员会印发施行《关于公用事业领域的反垄断指南》(以下简称《指南》)
2026-02-11 20:18:00
季季有主题,周周有优惠!2026年河北省电影惠民观影促消费活动启动
河北日报客户端讯(记者肖煜)为积极响应落实国家电影局全国电影惠民消费季安排,进一步激活河北电影市场消费潜力,丰富群众文化生活
2026-02-11 22:05:00
2025国际宠物博览会落幕:Benarmi倡导全生命周期健康管理
12月20日,2025国际宠物博览会在北京市平谷区博物馆、体育中心拉开帷幕,汇聚全球名宠、产业企业与创新项目,集中展现宠物经济的前沿动态与发展趋势
2026-02-11 20:08:00
“民生科幻”领军人吴楚新作《背叛文明》出版,聚焦星际外交博弈
如果高等文明的馈赠是一颗带毒的蜜糖,那人类是否有智慧拒绝唾手可得的诱惑?当思想需要向未来跨出一大步时,阅读科幻依然是当下最高效的途径
2026-02-11 17:22:00
随着云计算、大数据、人工智能等数智技术的迅猛发展,传统劳动形态正经历着前所未有的变革。工作场所的虚拟化、劳动时间的弹性化以及用工关系的多元化
2026-02-11 17:31:00
厦门城市可信数据空间开放试运行推出“马上有数”进驻激励计划 首发5个月资源免费共享东南网2月11日讯 (海峡导报记者 康泽辉) 近日
2026-02-11 17:50:00
元梦空间荣膺两项大奖 闪耀2025人工智能未来设计大赛
2025年11月10日,由工业和信息化部工业文化发展中心主办的2025“人工智能未来设计大赛”全国总决赛在山西太原圆满落幕
2026-02-11 17:50:00
【寒假摘镜总动员】选择哪种近视手术方式?——济南普瑞眼科王晓雪主任为您专业解析
视力是体检中至关重要的一环。选择一种既安全稳定、又符合体检标准的近视手术方式,是实现梦想的关键一步。济南普瑞眼科作为山东省首批蔡司全飞秒4
2026-02-11 17:51:00
潮新闻讯 随着人工智能兴起,数据要素领域的生产性服务业,规模正迅速壮大。近日,浙江省委副书记、省长刘捷在杭州专题调研服务业发展工作
2026-02-11 17:58:00
俊小白与上海吴淞材料实验室联合成立实验室
中国消费者报北京讯(记者孙蔚)近日,上海吴淞材料实验室与国货科创口腔护理品牌俊小白联合成立的个人护理功能介孔材料联合实验室正式落成
2026-02-11 18:06:00
大皖新闻讯 大皖新闻记者从国先中心(合肥)了解到,日前,零次方机器人率先完成中国信通院“可信AI”具身智能基准测试(EAI Bench)
2026-02-11 18:18:00
2月5日,中国消费者协会公布了2025年全国消协组织受理投诉情况统计数据,去年全国消协组织共受理消费者投诉2016448件
2026-02-11 18:06:00
职场人年货买什么?食品类、数码类需求上升
日前,智联招聘发布《职场人春节生存图鉴调研报告》,呈现职场人在春节前后的工作状态、社交压力、休闲计划等。春节前后通常是离职高峰期
2026-02-11 19:14:00
2025年,安徽太和县烟草专卖局(营销部)紧扣行业高质量发展要求,以“强基固本、提质增效”为主线,深化终端现代化转型,在数字化赋能
2026-02-11 14:18:00
从技术到情感,2026值得入手的定制珠宝品牌,一文读懂不踩坑
一、定制珠宝为何成为新消费时代的“刚需”?过去几年,全球珠宝产业正经历一场由内而外的结构性重塑。根据《2026全球珠宝行业白皮书》披露的数据
2026-02-11 14:20:00