• 我的订阅
  • 科技

OPPO AI 中心产品总监张峻:多模态和个性化是将要深耕的方向

类别:科技 发布时间:2024-10-22 09:48:00 来源:IT之家

2024 年 10 月 17 日,OPPO 在开发者大会上正式发布了 ColorOS 15。ColorOS 15 以“超轻快、更自在”为核心主题,重点提升了流畅、AI、设计、易用性等方面。据悉,ColorOS 15 将首次搭载于 OPPO Find X8 和一加 13 新品,并计划于 11 月开始为老机型提供正式版升级。

OPPO AI 中心产品总监张峻:多模态和个性化是将要深耕的方向

当天下午,OPPO ColorOS 设计总监陈希和 OPPO AI 中心产品总监张峻接受了媒体采访,和大家聊了聊关于 ColorOS 15 和 AI 的问题。

在对话中,OPPO AI 中心产品总监张峻分享了明年 AI 发展的主要方向,表示 OPPO 会在 AI 方面带来更多的惊喜。多模态和个性化是将要深耕的方向,同时端云协同将是重点架构。

“我们相信,在这些领域持续投入后,一定能为用户带来更加与众不同的体验。”张峻进一步说明,未来会将计算资源紧密结合的部分尽量放在端侧,从而提升安全性、实时性和用户体验。

在讨论重度应用流畅性优化时,OPPO ColorOS 设计总监陈希回答,系统级流畅性已经达到了相对高的标准,接下来重点解决的是应用内的流畅性。

陈希表示,对于操作系统来说,要在长尾场景和日常精细化体验上进一步优化,这就进入了“微观竞争”的阶段。比如,如何在各种长尾场景中保持体验的一致性和流畅性,这是未来竞争的维度之一。其次,从系统流畅到应用内的流畅,需要从芯片层到系统层进行深入地优化。应用消耗系统资源,因此我们通过底层芯片资源的调度优化来提高应用的表现力,比如潮汐引擎。

OPPO AI 中心产品总监张峻:多模态和个性化是将要深耕的方向

据IT之家报道,ColorOS 15 进行了从底层到用户界面的全面优化,推出了流畅双引擎 —— 极光引擎和潮汐引擎。极光引擎引入了行业内首个并行绘制框架,使得动画效果更加连贯流畅。潮汐引擎则通过芯片级别的性能优化,实现了流畅性和续航能力的双重提升。

关于潮汐引擎的技术优势是否可供其他厂商使用,陈希表示,潮汐引擎现在已经适用于双平台,不论是高通还是联发科。未来这种技术一定会成为行业的标配,因为竞争已经到了这个阶段。可能我们今天领先,明天别人就会复刻,所以在速度和质量上保持领先才是关键。

在此次 OPPO 开发者大会上,OPPO 还提出了 AIOS 发展的三个阶段:从第一阶段的系统应用 AI 化(AI for System),到第二阶段的系统 AI 化(System for AI),再到第三阶段的 AI 即系统(AI as System)。

OPPO AI 中心产品总监张峻:多模态和个性化是将要深耕的方向

基于上述理念,ColorOS 15 引入了高效的系统级 AI,包括全新的“超级小布助手”,它支持一键问屏、一拍即问、一圈即搜、图片问答和文档问答等多种交互方式。此外,系统级 AI 的感知和调度能力,ColorOS 15 实现了自有应用与三方应用间的生态握手,包括英语陪练、求职面试、旅游攻略、美食点评等。

谈及这个话题,张峻表示,OS 是 AI 手机的重要组成部分,AIOS 有三个阶段:应用 AI 化、系统 AI 化、AI 即系统。AI 已经不再是单点功能,而是深度整合的系统级体验。例如我们推出的“一键问屏”功能,它需要多模态交互的融合 —— 不仅要“看”,还要“听”,然后根据用户的语音和视觉反馈做出反应。这背后需要 AI 平台资源的调度和整合,体现了系统级的 AI 化。

OS 对于 AI 手机的硬件也会有一定的要求,因为这样的多模态交互,需要更多的感知能力,以及对端侧计算能力提出了新的硬件需求。所以硬件上,无论是传感器的布局还是芯片平台,都会进行相应的升级,以支持系统级的 AI 功能。

今年来,AI 重构系统成为了手机厂商的宣传重点,但 AI 重构系统的差异化与门槛又在哪里?

针对这个问题,张峻表示,OPPO 通过 SenseNow 框架实现了“边看边说”的功能。表面上看这只是一个细微的体验提升,但背后的技术路径完全不同。传统 AI 交互通常是单一的 —— 要么“看”,要么“说”,但我们的一键问屏功能可以做到边看边说,实现同步多模态的交互。这意味着用户在浏览内容时,可以立即询问或发出指令,AI 可以实时响应,而不再需要用户在不同模态之间来回切换操作。

实现这一点的背后有着复杂的分流决策和信息融合理解技术。系统需要同时处理多种输入源,如视觉信息和语音指令,然后对这些输入进行协同处理。我们的目标是让 AI 助理像真人助理一样,能够“边看、边说、边做”,这种无缝的体验背后涉及相当高的技术门槛。

IT之家了解到,在此次开发者大会上,OPPO 推出了全新的 SenseNow 智慧框架,实现多模态直觉交互体验。该框架集成了自主研发的语音多级唤醒和个性化识别技术,使语音唤醒和识别准确率达到 97% 以上。多模态理解技术让 AI 具备看的能力,支持 1000 多种主体识别,并实现图文混合检索。生成式语音合成框架让 AI 能够模拟真人语气和节奏,支持超过 20 种个性化音色。SenseNow 智慧框架还融合不同类型的信息源,理解复杂意图,完成跨应用操作。

陈希补充表示,OPPO 提出了一个 AI 理念,叫做“直觉、整合、专属、安全”四个核心要素。其中,“直觉”和“整合”是今天我们特别强调的。直觉是指系统越来越像人类,能够具备类似人的感知能力,让交互变得自然和拟人化。整合是指,将各个模态的信息和交互整合到一起,而不是简单地一个模态完成后切换到另一个模态。例如在今天的发布会上展示的“一键问屏”,这功能看似用户只是说了一句话,但背后 AI 系统需要进行很多隐含的前提理解和推理,以完成用户的意图。

这其中的整合就是我们强调的核心难点之一。机器不像人类那样自然而然地理解场景和意图,它需要经过大量的条件界定和判断。而我们做了许多投入,使得这些多模态交互和整合能够最终展现在用户面前,这也是 AI 重构系统的一个重要部分。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-22 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

全新的coloros15正式登场,新系统带来全面提升
...而OPPO的一键问屏功能却可以做到边看边说,实现同步多模态的交互。这就意味着用户在浏览内容时,可以立即询问或发出指令,AI能够实时响应,用户不再需要在不同模态之间来回切换操作
2024-10-20 02:01:00
...业内分析认为,该项新产品或将促使大模型厂商加大对多模态大模型的研发投入,并进一步推动AGI(通用人工智能)进程。一直以来,视频领域便是被普遍看好的AI应用落脚点之一。继可生成
2024-02-26 08:58:00
讯飞输入法发布行业首个输入法认知大模型:生成式AI全赋能
...一代输入法认知大模型,涵盖文本生成、多语言语音、多模态生成的生成式AI能力矩阵,做更靠近业务的解决方案。丁克玉特别提到,当前一代的输入法基于编解码模式预测输出,对用户意图理解
2023-10-25 11:34:00
Tech100 | 哈工大深圳团队入局多模态大模型,自研「若愚-九天」荣登OpenCompass榜首
...托学校的哈深资产经营有限公司进行成果转化,成立了多模态大模型研发企业--深圳若愚科技有限公司(以下简称“若愚科技”)。若愚科技旗下首款多模态大模型“若愚-九天”首次参评即登顶
2023-08-09 09:55:00
...1亿美金。资金主要将用于核心研发团队的建设,加速多模态大模型和应用产品的研发。成立于2023年3月,生数科技由安全可控人工智能方案提供商瑞莱智慧RealAI、蚂蚁集团和BV百
2023-06-19 09:03:00
Brilliant Labs发布全球首款集成多模态AI眼镜
...眼镜开发商BrilliantLabs宣布推出Frame,这是全球首款集成多模态AI助手的眼镜。Frame不仅重新定义了视觉方式
2024-02-14 15:17:00
从Agent到多模态,大模型想要什么?
图片来源@视觉中国文|李智勇OpenAI 9.25发了个关于多模态版本的Blog说chatGPT现在能够看、听、说了,体验过的同学反馈还不错
2023-10-01 17:01:00
vivo发布自研大模型,为用户和开发者带来诸多惊喜
...随着大模型技术日益成熟,vivo在语言、图像、语音、多模态等全模态的AI技术上逐步升级为大模型能力,正从传统的AI技术时代迈向大模型AI技术时代。vivoAI算法技术总监李方
2024-10-14 01:53:00
Sora再度颠覆AI视频行业,A股哪些公司有相关布局?
...实现AGI(通用人工智能)的重要里程碑。券商建议关注多模态技术Sora视频一出,立刻震惊业界。360集团创始人、董事长周鸿祎2月16日在微博发文表示
2024-02-19 08:10:00
更多关于科技的资讯: