• 我的订阅
  • 科技

苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?

类别:科技 发布时间:2023-12-26 14:06:00 来源:InfoQ

整理 | 核子可乐、褚杏娟

“苹果公司在 LLM 方面一直表现不佳,但他们一直在不断发展‘硬件 + 软件人工智能’堆栈,没有太多耀眼的广告。我认为,如果新的 iOS 版本突然让 OpenAI/Bard 聊天框看起来可笑地过时,他们可能会击败微软 /OpenAI 和谷歌。如果大量人工智能使用转向苹果硬件,它们也会对英伟达构成威胁,Arm 和台积电将获胜。”有网友说到苹果在大模型发展上的状况。

也有网友认为,苹果在大模型上的发力将为其在未来的手机市场竞争中带来优势。他们认为,开源模型加上移动设备的本地数据,即本地化的原生 LLM,才是关键,谁在设备上运行得好,谁就卖得好。具体来说,iPhone/iPad/Mac 拥有最多、最一致的本地数据生态,许多开源大模型已经可以在 iPhone 上运行,社区也对 M1/M2/M3 芯片进行了大量优化。而反观 Android 生态,情况却不容乐观:三星占据了大部分市场份额,国内五大厂商也占据了相当大的份额,谷歌所占份额极少,碎片化的局面让通用模型运行面临困难。

相比微软等其他巨头在大模型上的高歌猛进,苹果显得很是安静,尤其苹果和哥伦比亚大学的研究人员于在 2023 年 10 月低调发布的一个名为 Ferret 的开源多模态大模型也没有收到太多关注。当时,该版本包含代码和权重,但仅供研究使用,而非商业许可。

但随着 Mistral 开源模型备受关注、谷歌 Gemini 即将应用于 Pixel Pro 和 Android,关于本地大模型为小型设备提供支持的讨论越来越多。而苹果公司也宣布啦在 iPhone 上部署大模型方面取得了重大突破:该公司发布了两篇新的研究论文,介绍了 3D 头像和高效语言模型推理的新技术,被认为可能带来更身临其境的视觉体验,并允许复杂的人工智能系统在 iPhone 和 iPad 等消费设备上运行。

AI 社区中的许多人后来才注意到 Ferret 的发布,他们很开心苹果公司出人意料地进入了开源 LLM 领域,因为苹果公司历来由于封闭的生态而被称为“围墙花园”。下面我们看下这个才开始被热议的项目。

多模态大语言模型 Ferret

“据我们所知,Ferret 是首个能够在多模态大模型中处理自由形式区域输入的成果。”项目研发团队在论文中写道。Ferret 是一种新颖的引用与定位多模态大语言模型(MLLM)。之所以选择多模态大模型作为 Ferret 的设计前提,是因为其拥有强大的视觉语言全局理解能力。

模型架构

根据介绍,Ferret 主要由用于提取图像嵌入的图像编码器;用于提取区域连续特征的空间感知视觉采样器;以及用于对图像、文本和区域特征进行联合建模的大语言模型组成。

苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?

输入

将图像输入经过预训练的视觉编码器 CLIP-ViT-L/14 ,以提取图像嵌入 Z ∈ R H×W×C。对于文本输入,使用经过预训练的大模型标记器对文本序列进行标记,并将其投射至文本嵌入 T ∈ R L×D 当中。

空间感知视觉采样器

除了常见的点或矩形框之外,团队需要处理的区域形状可能存在很大差异。基于网格的处理方法(例如卷积或 patch attention)无法处理不规则形状。与之类似,3D 点云也属于不规则形状,而且在 3D 空间中表现出不同的稀疏性。受到现有 3D 点云学习方法的启发,团队提出一种空间感知视觉采样器。

空间感知视觉采样器用以获取任意形状区域的视觉特征,同时考虑到这些形状所对应的不同稀疏性。以此为基础,团队将离散坐标与连续视觉特征组合起来以表示输入中的视觉区域,由此构成 Ferret 中的混合区域表示。凭借上述方法,Ferret 就能够处理由区域同自由格式文本混合而成的输入,并可以无缝生成每个可定位对象的坐标和文本,由此在输出中定位所提及的对象。

假设已经给定提取得出的图像特征图 Z ∈ R H×W×C 和二值化区域掩模 M,团队首先在 M 内随机采样 N 个正点。这 N 个点被输入至级联的块中,每个块包含三个步骤:采样、收集、池化。经过这三个步骤,将获得更少的点和更密集的特征空间。

输出

在 Ferret 的输出中,为了实现定位,团队在文本响应中的相应区域 / 名词之后生成框坐标。例如“图中有一只狗[100,150,300,200]。”通过这种数据格式,模型即可隐式学习当前图像中的可定位内容及其确切位置。

大语言模型

团队选定 Vicuna 作为语言模型,这是一种在 Llama 之上通过指令微调而来的纯解码器大语言模型。在输入大模型之前,图像嵌入先通过额外的线性层进行转换,以匹配文本标记的嵌入维度。

为了使 Ferret 的引用机制具有开放词汇、指令遵循和健壮性,团队还整理出了一套包含 110 万个样本的引用与引用指令调整数据集 GRIT。

GRIT 中包含多个层次的空间知识,涵盖对象、关系、区域描述和复杂推理等要素。GRIT 包含三种数据类型:被转换为指认遵循格式的公共数据集、通过 ChatGPT 和 GPT-4 生成的指令微调数据和额外的空间负样本数据。其中大部分数据是由现有视觉(语言)任务转换而来,例如对象检测和短语定位。

此外,团队表示,通过 ChatGPT/GPT-4 收集的 34000 条引用和定位指令调整对话,可以高效完成模型的指令遵循与开放词汇引用 / 定位训练。团队还进行了空间感知的负样本挖掘,进一步提高了模型的健壮性。

苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?

幻觉问题

团队也观察到了多模态大模型在回答是 / 否类问题时,往往表现出产生“幻觉”。对此,团队通过图像条件类别定位以及语义条件类别定位两种方式进行负样本挖掘。

这两种方式都要求模型定位特定的对象类别,从而使模型能够辨别并潜在发现某些对象的缺失。不同之处在于,如何选择负样本类别。对于前者,团队采用 Object365 数据从给定图像中未显示的词汇中随机选择对象类,对后者则使用 Flickr30k 数据,并通过 ChatGPT/GPT-4 查找与原始类别、属性或数量最相似的实体以获取负样本,例如“男人”和“女人”、“蓝色”和“黄色”。

此外,团队还进行了数据整理,以维持两种类别下正样本和负样本之间的平衡,最终共收集到 95000 条数据。

大模型响应

除了通过模板转换现有数据集之外,对话指令调整数据同样在帮助多模态大模型理解人类意图,并生成流畅、自然、长格式响应方面至关重要。目前,业界广泛使用少样本提示以获取视觉指令调整数据,其中将图像的文本场景描述与人工标注对话作为少样本演示,并通过提示词要求 ChatGPT/GPT-4 根据新图像的文本场景生成相应的对话描述。

但是,以往的指令调整数据主要集中于描述整体图像,而不会明确指定空间相关信息。为了收集引用与定位指令调整数据,团队通过以下三个步骤强调基于区域的空间知识:

训练过程

对于训练过程,团队使用 CLIP-ViT-L/14@336p 对图像编码器进行初始化,使用 Vicuna 对大模型进行初始化,使用 LlaVA 的第一阶段权重对投射层进行初始化,借此实现了视觉采样器的随机初始化。初始化完成后,Ferret 在 GRIT 数据上接受了三个轮次(epoch)的训练,使用 Loshchilov & Hutter 进行优化,学习率为 2e − 5,批量大小为 128。

根据介绍,Ferret-13B/7B 模型在 8 张 A100 上的训练分别需要约 5/2.5 天。在训练过程中,当输入引用区域时,团队会随机选择中心点或边界框(在可行时也会选择分割掩膜)来表示各区域,并对训练数据进行了重复数据删除,借此清理下游评估中的样本。

为了评估这项新功能,团队引入了 Ferret-Bench,其涵盖三种新型任务:引用描述 / 引用推理和对话内定位。团队表示,通过对现有多模态大模型进行了基准测试,发现 Ferret 的平均性能较最出色的原有大模型高 20.4%,而且在物体识别的幻觉方面也有所减轻。

概括来讲,Ferret 项目论文的贡献主要为以下三个方面:

结束语

很明显,苹果正在努力追赶这次 AIGC 浪潮。据报道,苹果每天在人工智能上投资数百万美元,内部有多个团队开发多种人工智能模型。

根据报道,苹果致力于对话式人工智能的部门被称为“Foundational Models”,“大约 16 名”成员,其中包括几名前谷歌工程师。该部门由 Apple 人工智能主管 John Giannandrea 掌舵,他于 2018 年受聘帮助改进 Siri。

苹果正在开发自己的大模型“Ajax”。Ajax 旨在与 OpenAI 的 GPT-3 和 GPT-4 等产品相媲美,可运行 2000 亿个参数。Ajax 在内部被称为“Apple GPT”,旨在统一整个 Apple 的机器学习开发,提出了将人工智能更深入地集成到 Apple 生态系统中的更广泛战略。

截至最新报告,Ajax 被认为比上一代 ChatGPT 3.5 更强大。然而,也有人认为,截至 2023 年 9 月,OpenAI 的新模型可能已经超越了 Ajax 的能力。

近日,苹果的机器学习研究团队还悄悄发布了一个名为 MLX 的框架来构建基础模型。彭博社报道称,苹果正在开发 Siri 的改进版本,并计划在下一个重大 iOS 版本中提供以人工智能为中心的功能。

另外,苹果还正在与一些大型新闻出版商洽谈授权其新闻档案,并利用这些信息来训练模型。《纽约时报》称,该公司正在讨论“价值至少 5000 万美元的多年期交易” ,并已与 Condé Nast、NBC News 和 IAC 等出版商保持联系。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-12-26 19:45:40

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

苹果公司公布“mm1”多模态大模型
...dalLLMPre-training》的论文,其中介绍了一款“MM1”多模态大模型,该模型提供30亿、70亿、300亿三种参数规模
2024-03-16 18:48:00
苹果大模型,不藏了
岁末年初,苹果加快了在大模型领域的步伐。上个月,苹果先是推出了名为Ferret的多模态大语言模型,图像处理技术堪称惊艳;而后又发布了一篇题为《闪存中的大型语言模型:在有限内存下高
2024-01-06 09:10:00
...果、微软,苹果推出Apple Intelligence AI系统等等。而在AI大模型方面,最主要事件则是OpenAI推出多模态大模型ChatGPT-4o
2024-12-26 21:56:00
苹果300亿参数大模型首亮相,还买了家AI公司|焦点分析
...武静静编辑|邓咏仪放弃造车后的苹果,正在加速入局大模型战争。当地时间3月15日,苹果就披露了两个关键大模型动作。其中一个值得关注的是苹果的收购事件。彭博社报道称,苹果已经收购
2024-03-16 18:14:00
全国首个 成都创新团队发布机器人多模态模型
中国首个机器人多模态模型,可以相对明确地将水果和非水果进行区分和分拣如果你想吃苹果,根据语音指令,机器人会把苹果送到你手上;如果想收拾干净桌面,机器人就会把桌上所有的东西归置好…
2024-08-13 09:51:00
价格便宜75%!亚马逊推出全新大模型系列,3纳米自研芯片明年上市
...逊继续在云计算领域发力,推出全新自研AI(人工智能)模型和芯片。 当地时间12月3日,亚马逊在AWS(亚马逊云服务)年度大会上宣布了一系列新的AI产品
2024-12-04 22:47:00
2024年投资展望丨AI、MR、短剧等概念爆发,传媒板块去年逆市涨近17%
...线和游戏板块实现营收和净利润同增。二、市场情况:大模型接连问世,应用遍地开花作为引领板块行情的重要主线,AI时代正随着新技术革命而加速展开。招商证券指出,2023年是大模型的
2024-01-06 17:23:00
Motiff妙多发布国内首个UI大模型,效果跑分超越苹果、GPT-4o
...想象。自GPT-4将多模态技术引入公众视野以来,多模态大模型进入快速发展阶段,逐渐从单纯的模型研发转向垂直领域的探索和应用,与各行各业深度融合。在界面交互领域,谷歌、苹果等国
2024-08-19 09:37:00
阶跃星辰宣布开源图生视频模型,多模态领域的DeepSeek时刻何时来?
...人工智能对产业、工作、生活等方面带来的积极变化。大模型的落地应用、社区生态以及开源成为本次大会的热点话题。国内大模型“六小虎”中最为低调的上海阶跃星辰智能科技有限公司(以下简
2025-02-22 16:36:00
更多关于科技的资讯: