• 我的订阅
  • 科技

大模型下探音视频AI市场,战争才刚刚开始 | ToB产业观察

类别:科技 发布时间:2023-06-07 14:00:00 来源:钛媒体APP
大模型下探音视频AI市场,战争才刚刚开始 | ToB产业观察

图片来源:视觉中国

大模型面向产业落地的难点是什么?

1.当下,基于生成式的人工智能技术(AIGC),仍然需要海量数据进行训练才能得到一个回复质量较高的模型算法,初期训练成本非常之高。这对于倾向自研基础大模型的企业是必须要过的门槛。

2.对于给出算法更加精准、训练成本更低、对于用户调取更方便的模型,这一方面的提升空间较为明晰。在媒体、游戏、营销等行业已经看到比较多典型的内容生成场景,但AIGC技术并不能适用于所有场景,且在商业层面的实际回报率尚未明朗。

3.从市场需求的共性来看,企业对AI技术更关心,关心怎么跟业务融合,但同时也会有些担忧或紧张,新技术会不会对业务带来冲击。与此同时,各国对人工智能和数据获取监管的法律条文,以及对“类ChatGPT”的支持力度,也在反映这种观望态度。

过去半年,整个科技圈有关AIGC创新的新闻铺天盖地,但一顿操作猛如虎之后,还有更多仍在“来的路上”。

6月1日,阿里云宣布通义大模型进展,聚焦音视频AI的“通义听悟”正式亮相,成为国内首个开放公测的大模型应用产品。

通义听悟其前身是早在2021年研发投入市场的“听悟”产品,此次除了集成阿里通义千问大模型的理解与摘要能力外,还融合了阿里最先进的语音语义、多模态算法等技术。公测期间,听悟用户可通过每日登陆等多种任务领取免费转写时长,阿里云官方多个平台也会放大量20小时的转写口令码。除此之外,听悟企业版还在与钉钉“钉闪记”、夸克APP、阿里云盘等进行能力进行集成。

此举对于国内的AI语音技术服务商以及“类ChatGPT”应用企业,并不是个好消息。

从听悟到通义听悟

结合当前的官方定义来看,通义听悟具备“听”与“悟”能力,即“听力好”,能高准确度生成会议记录、区分不同发言人,“悟性高”,可形成摘要、总结全文及每个发言人观点、整理关注重点和待办事项。

这其实也明确了外界对AI音视频技术产品的一个重要期待:要让AI理解人类,并且以人类可理解的方式表达出来。AI理解人类,意味着不只要听到表面语义,甚至还要理解人的情绪和意图;AI表达,则意味着在文本生成、内容摘要、风格及情绪表达上要有所突破。同时结合多模态技术,不只是文字、音频,还有图像、视频等方式传递给AI理解。

大模型下探音视频AI市场,战争才刚刚开始 | ToB产业观察

这个过程,在没有大模型技术应用前,就已经存在诸多细节性挑战。但在阿里云CTO周靖人看来,有了通义大模型的加持,阿里将多年积累的语音技术,以及多模态的能力有机结合起来,最终形成今天的通义听悟。

“‘知其然不知所以然’是产品没有大模型的局限性,过去的听悟只能做到将语音文字转录出来,但背后的整理、理解、信息收取,是依靠人来完成的。之前也曾用过小模型,但结果并不好。”周靖人在会后的交流活动中指出。

以语音识别TTS为例,听悟内置了语音识别模型Paraformer,它首次在工业级应用层面解决了端到端识别效果与效率兼顾的难题。配合GPU推理,不同版本的Paraformer可将推理效率提升5~10倍,同时,Paraformer使用了6倍下采样的低帧率建模方案,可将计算量降低近6倍,支持大模型的高效推理。

说话人识别模型CAM++,相较于如ECAPA-TDNN和ResNet模型,在准确识别和高效计算的同时,还实现了整体优解。在行业主流的中英文测试集VoxCeleb和CN-Celeb上均刷新了最优准确率,并且在计算效率和推理速度上有着明显优势。

而此次听悟上线测试的通义千问大模型的信息摘要能力,为保证抽取出的摘要信息的事实准确,大幅度减少幻觉,团队还融合了在推理、对齐和对话问答等方面的研究成果。如在推理能力方面,2022年团队提出了基于大语言模型的知识探测与推理利用的框架 Proton。

对手会是讯飞吗?

业内普遍一个声音是,“很多产品因为大模型的到来会重新再做一遍”,接入大模型能力,或将改变的是产品的业务逻辑、交互模式,甚至是收费模式。

从通义听悟当前的产品界面上看,针对的仍然是比较高频的场景,往往跟对话或交流相关,如上述提及的总结、翻译、内容摘取,其本质上是对内容语义的理解输出。据官方描述,其定位为一款工作学习AI助手,瞄准具有高知识附加值的音视频内容场景,如开会、上课、访谈、培训、面试、直播、看视频、听播客等,能通过大模型等最新AI技术快速提炼和沉淀知识。

通义听悟的技术负责人鄢志杰一直都在从事智能语音交互相关工作,他解释道,“目前展示的视频转文字,仍然是将视频里的音频进行文字转换,尚未展示出视频直接转文字的理解过程。未来会进行多模态的理解,不仅要有音频转文字,还要辅助以视频和视觉的模态对内容进行更好的理解。”

下一步,通义听悟会被各种各样的业务系统集成,集成到智能化服务中,开发者可根据实际场景,最终打造基于业务场景的MaaS服务,“通义听悟一定会推出企业版,为企业场景所定制,每个企业也都会有不同的需求,也有数据安全、数据隐私等方面的要求。”周靖人补充道。

那么,通义听悟的对手会是讯飞吗?

事实上,音视频是人机交互的重要入口,市面上成熟的AI音视频产品并不在少数,除了讯飞、搜狗、网易有道等具备软硬件能力的服务商外,飞书妙记、腾讯会议等互联网公司孵化的企业办公生产力工具,也同样具备相似的能力。可能的区别在于,背后的AI技术逻辑,是否会因大模型的到来而彻底改变。

科大讯飞于上月发布星火大模型,其中软件产品讯飞听见会写已经搭载大模型开放使用,在收费模式上已经给市场参考标准——根据单次AI能力的使用(单次字数不超过8000字)按月/季/年会员收费。

互联网公司在这方面的积累也从未缺席,在不断丰富AI技术体系的同时,也在迅速推进大模型+的创新。例如从早期的iDST实验室到达摩院,阿里2019年开始投入大模型,2021年训练实现10万亿参数的多模态大模型M6,2022年发布通义大模型,到如今的通义千问、通义听悟已经在逐步产业化融合。

《中国人工智能大模型地图研究报告》指出,据不完全统计,中国10亿级参数规模以上大模型已发布了79个,特别是在自然语言理解、机器视觉、多模态等方面,出现了多个在行业有影响力的大模型。上述提及的网易有道则基于教育场景推出了“子曰”大模型,出门问问的“序列猴子”则面向多模态生成能力的大语言模型……

可见,能容纳后来者的赛道,依然存在尚未挖掘的价值空间,更何况大模型将带来新的变量。

(本文首发钛媒体APP,作者 | 杨丽) 返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-06-07 15:45:13

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

谷歌之后,OpenAI也要给新闻网站付费了?
...成本问题了。近两年,大模型喷涌,它们在文字、图片、音视频等内容形态的生成上大放异彩。内容创作一直认为是人“独属”的技能,自OpenAI于2022年发布ChatGPT之后,众多
2024-07-10 15:13:00
前沿观察|贵州数字经济:“四类产业”一条链
...际、契合需求,可谓正当其时。生产数据以及海量图文、音视频数据变成新的生产资料的过程,都需要在细分行业需求的前提下,去进行搜集处理,比如数据标注,就需要根据诸如工业制造、交通、
2025-08-22 16:45:00
2024世界计算大会论道:万兴科技大模型加速改变音视频内容生产的成本结构
本文转自:人民网-湖南频道朱雯雯分享音视频多媒体大模型的应用探索与实践。受访单位供图人民网长沙9月25日电 9月24日,2024世界计算大会在湖南长沙开幕。大会汇聚全球顶尖的计算
2024-09-25 17:26:00
2024中国新媒体技术展:技术赋能新场景 媒体深融新风向
...术展通过开设媒体技术国家实验室展区、人工智能展区、音视频技术展区、数字文化技术展区、马栏山“文化+科技”主题展区,重点聚焦人工智能赋能媒体融合发展、智媒技术服务智慧文旅和数字
2024-10-15 16:54:00
聚焦前沿赋能产业,第五届“马栏山杯”国际音视频算法大赛开赛
...人民日报客户端申智林6月14日,第五届“马栏山杯”国际音视频算法大赛正式启动。本届“算法大赛”跟随内容行业“文化+科技”深度融合新趋势全面升级,设立算法赛、创新应用赛与趣味编
2024-06-16 10:30:00
混元已接入腾讯50多个业务,国产大模型将加速转入长跑期?
...在核心数字科技的许多领域,实现了性能的突破。比如在音视频领域,腾讯编码器在MSU世界大赛中,一次性包揽了全部15个世界冠军。又比如,结合了腾讯云高性能的星星海服务器、深度优化
2023-09-07 18:01:00
腾讯汤道生:数字出海成为中国企业拥抱全球市场的重要方式
...优势,以及腾讯云的技术、产品和生态优势(如云原生、音视频、网络加速、安全防护等产品,以及遍布全球的26个地理区域、70个可用区和2800个加速节点),共同服务欧美、日韩、东南
2023-08-17 16:44:00
Vidu再燃AI视频生成赛道 万兴天幕加速音视频大模型应用落地
...议。4月28日,AIGC软件A股上市公司万兴科技宣布其国内首个音视频多媒体大模型万兴“天幕”正式公测,受到市场广泛关注
2024-04-29 19:00:00
...,提升数据精细化标注水平,积极开发涵盖文本、图像、音视频等多模态的高质量数据集。要加快自主算力资源和供给能力建设。大力推动算力基础设施和算力网络建设,不断提升智能算力综合供给
2024-03-20 05:57:00
更多关于科技的资讯:
前瞻布局未来产业 新奥以智能助力高质量发展
河北新闻网讯(张新)日前,《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》正式发布,将“构建以先进制造业为骨干的现代化产业体系”列为核心任务之一
2025-11-03 18:04:00
中央音乐学院发布音乐脑机接口“央音一号”
中国青年报客户端讯(中青报·中青网记者 蒋肖斌)音乐脑机接口“央音一号”,近日在中央音乐学院发布。中央音乐学院音乐人工智能与音乐信息科技系主任李小兵表示
2025-11-03 16:52:00
11.11提前抢!三联家电折扣让利,家电焕新正当时
鲁网11月3日讯随着11.11购物节的脚步日益临近,全国家电消费市场热度持续攀升,山东地区更是提前进入 “焕新倒计时”
2025-11-03 15:52:00
安徽牧羊人可持续时尚工业园项目开工 致力打造羊毛针织行业的佼佼者
大皖新闻讯 11月3日,安徽牧羊人可持续时尚工业园项目开工奠基仪式举行。项目建成后,将形成年产1000万件成衣,7200吨纺纱
2025-11-03 16:11:00
“景德镇鸡排哥”用一碗香辣鸡排撬动全网关注,这座千年瓷都再次被推上流量风口。草根摊主的日常片段在网络掀起打卡热潮,小众街巷因一条短视频迎来客流井喷
2025-11-03 12:25:00
乘AI之势,筑电子产业之基,CPCA Show Plus 2025 圆满闭幕,2026再相见!
2025年10月28日-30日,电子半导体产业创新发展大会暨国际电子电路(大湾区)展览会(以下简称:CPCA Show Plus)在深圳国际会展中心(宝安)盛大举办
2025-11-03 12:43:00
培育钻值得购买吗?超全选购攻略一篇搞定,附头部品牌深度测评
当越来越多的年轻人开始琢磨“如何高性价比的结个婚”,培育钻石凭借着价格优势、环保理念,正成为暗潮涌动的钻戒市场的新宠。据统计
2025-11-03 12:45:00
未来,AI有望打造口感逼真的植物蛋白
大河网讯 “人工智能(AI)正以前所未有的速度加速食品创新,它不仅能打造口感逼真的植物蛋白、通过文本生成全新食品配方,还能辅助设计个性化营养食品
2025-11-03 13:10:00
2025 年,Facebook 依托 Meta 生态的 29.8 亿全球月活用户(Statista 数据),仍是企业海外拓客的关键阵地
2025-11-03 12:46:00
彰显国际范科技范 第十七届厦门国际动漫节圆满落幕
角色扮演者在金海豚动漫游戏嘉年华现场打卡。厦门游戏企业展台带来多样互动活动。游路演活动现场,企业展开对接。(动漫节组委会 供图) 厦门网讯(文/厦门日报记者 林露虹 通讯员 洪慧敏 图/厦门日报记者 林铭鸿 除署名外)昨日傍晚
2025-11-03 08:55:00
报告:亲身体验“在地风物”成年轻人出行新理由
近日,中国旅游研究院(文化和旅游部数据中心)与马蜂窝联合召开“旅游目的地探索系列报告发布会”,发布该系列最新研究成果——《中国风物报告》
2025-11-03 09:28:00
几何之厦落子广州白云机场T3,以“文化坪效”重塑机场商业价值
(2025年10月30日,广州电) 今日,广州白云国际机场T3航站楼正式通航,与这座未来年客流量超千万级航空枢纽一同启幕的
2025-11-03 09:59:00
固安:“共享工厂”赋能特色产业集群高质量发展
河北新闻网讯(万倩、王智钢)走进汉旗电子科技(固安)有限公司的生产车间,企业新升级的智能化生产线正在高效运转。这里不仅是企业自身的生产基地
2025-11-03 10:00:00
梦启未来!2025年“兴火·燎原”创新马拉松公开赛火热报名中
创新驱动发展澎湃潮涌,“数字中国”建设如火如荼。年年相约,再启新程,2025年“兴火·燎原”创新马拉松公开赛正式开放报名
2025-11-03 10:29:00
阿宽食品以品类创新引领发展:从红油面皮到土豆泥泥面、魔芋系列
10月27日至28日,四川省预制食品产业高质量发展推进会在眉山市召开。当天,阿宽食品作为代表企业设展,重点展示了包括红油面皮
2025-11-03 10:29:00