• 我的订阅
  • 科技

苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?

类别:科技 发布时间:2023-12-26 14:06:00 来源:InfoQ

整理 | 核子可乐、褚杏娟

“苹果公司在 LLM 方面一直表现不佳,但他们一直在不断发展‘硬件 + 软件人工智能’堆栈,没有太多耀眼的广告。我认为,如果新的 iOS 版本突然让 OpenAI/Bard 聊天框看起来可笑地过时,他们可能会击败微软 /OpenAI 和谷歌。如果大量人工智能使用转向苹果硬件,它们也会对英伟达构成威胁,Arm 和台积电将获胜。”有网友说到苹果在大模型发展上的状况。

也有网友认为,苹果在大模型上的发力将为其在未来的手机市场竞争中带来优势。他们认为,开源模型加上移动设备的本地数据,即本地化的原生 LLM,才是关键,谁在设备上运行得好,谁就卖得好。具体来说,iPhone/iPad/Mac 拥有最多、最一致的本地数据生态,许多开源大模型已经可以在 iPhone 上运行,社区也对 M1/M2/M3 芯片进行了大量优化。而反观 Android 生态,情况却不容乐观:三星占据了大部分市场份额,国内五大厂商也占据了相当大的份额,谷歌所占份额极少,碎片化的局面让通用模型运行面临困难。

相比微软等其他巨头在大模型上的高歌猛进,苹果显得很是安静,尤其苹果和哥伦比亚大学的研究人员于在 2023 年 10 月低调发布的一个名为 Ferret 的开源多模态大模型也没有收到太多关注。当时,该版本包含代码和权重,但仅供研究使用,而非商业许可。

但随着 Mistral 开源模型备受关注、谷歌 Gemini 即将应用于 Pixel Pro 和 Android,关于本地大模型为小型设备提供支持的讨论越来越多。而苹果公司也宣布啦在 iPhone 上部署大模型方面取得了重大突破:该公司发布了两篇新的研究论文,介绍了 3D 头像和高效语言模型推理的新技术,被认为可能带来更身临其境的视觉体验,并允许复杂的人工智能系统在 iPhone 和 iPad 等消费设备上运行。

AI 社区中的许多人后来才注意到 Ferret 的发布,他们很开心苹果公司出人意料地进入了开源 LLM 领域,因为苹果公司历来由于封闭的生态而被称为“围墙花园”。下面我们看下这个才开始被热议的项目。

多模态大语言模型 Ferret

“据我们所知,Ferret 是首个能够在多模态大模型中处理自由形式区域输入的成果。”项目研发团队在论文中写道。Ferret 是一种新颖的引用与定位多模态大语言模型(MLLM)。之所以选择多模态大模型作为 Ferret 的设计前提,是因为其拥有强大的视觉语言全局理解能力。

模型架构

根据介绍,Ferret 主要由用于提取图像嵌入的图像编码器;用于提取区域连续特征的空间感知视觉采样器;以及用于对图像、文本和区域特征进行联合建模的大语言模型组成。

苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?

输入

将图像输入经过预训练的视觉编码器 CLIP-ViT-L/14 ,以提取图像嵌入 Z ∈ R H×W×C。对于文本输入,使用经过预训练的大模型标记器对文本序列进行标记,并将其投射至文本嵌入 T ∈ R L×D 当中。

空间感知视觉采样器

除了常见的点或矩形框之外,团队需要处理的区域形状可能存在很大差异。基于网格的处理方法(例如卷积或 patch attention)无法处理不规则形状。与之类似,3D 点云也属于不规则形状,而且在 3D 空间中表现出不同的稀疏性。受到现有 3D 点云学习方法的启发,团队提出一种空间感知视觉采样器。

空间感知视觉采样器用以获取任意形状区域的视觉特征,同时考虑到这些形状所对应的不同稀疏性。以此为基础,团队将离散坐标与连续视觉特征组合起来以表示输入中的视觉区域,由此构成 Ferret 中的混合区域表示。凭借上述方法,Ferret 就能够处理由区域同自由格式文本混合而成的输入,并可以无缝生成每个可定位对象的坐标和文本,由此在输出中定位所提及的对象。

假设已经给定提取得出的图像特征图 Z ∈ R H×W×C 和二值化区域掩模 M,团队首先在 M 内随机采样 N 个正点。这 N 个点被输入至级联的块中,每个块包含三个步骤:采样、收集、池化。经过这三个步骤,将获得更少的点和更密集的特征空间。

输出

在 Ferret 的输出中,为了实现定位,团队在文本响应中的相应区域 / 名词之后生成框坐标。例如“图中有一只狗[100,150,300,200]。”通过这种数据格式,模型即可隐式学习当前图像中的可定位内容及其确切位置。

大语言模型

团队选定 Vicuna 作为语言模型,这是一种在 Llama 之上通过指令微调而来的纯解码器大语言模型。在输入大模型之前,图像嵌入先通过额外的线性层进行转换,以匹配文本标记的嵌入维度。

为了使 Ferret 的引用机制具有开放词汇、指令遵循和健壮性,团队还整理出了一套包含 110 万个样本的引用与引用指令调整数据集 GRIT。

GRIT 中包含多个层次的空间知识,涵盖对象、关系、区域描述和复杂推理等要素。GRIT 包含三种数据类型:被转换为指认遵循格式的公共数据集、通过 ChatGPT 和 GPT-4 生成的指令微调数据和额外的空间负样本数据。其中大部分数据是由现有视觉(语言)任务转换而来,例如对象检测和短语定位。

此外,团队表示,通过 ChatGPT/GPT-4 收集的 34000 条引用和定位指令调整对话,可以高效完成模型的指令遵循与开放词汇引用 / 定位训练。团队还进行了空间感知的负样本挖掘,进一步提高了模型的健壮性。

苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?

幻觉问题

团队也观察到了多模态大模型在回答是 / 否类问题时,往往表现出产生“幻觉”。对此,团队通过图像条件类别定位以及语义条件类别定位两种方式进行负样本挖掘。

这两种方式都要求模型定位特定的对象类别,从而使模型能够辨别并潜在发现某些对象的缺失。不同之处在于,如何选择负样本类别。对于前者,团队采用 Object365 数据从给定图像中未显示的词汇中随机选择对象类,对后者则使用 Flickr30k 数据,并通过 ChatGPT/GPT-4 查找与原始类别、属性或数量最相似的实体以获取负样本,例如“男人”和“女人”、“蓝色”和“黄色”。

此外,团队还进行了数据整理,以维持两种类别下正样本和负样本之间的平衡,最终共收集到 95000 条数据。

大模型响应

除了通过模板转换现有数据集之外,对话指令调整数据同样在帮助多模态大模型理解人类意图,并生成流畅、自然、长格式响应方面至关重要。目前,业界广泛使用少样本提示以获取视觉指令调整数据,其中将图像的文本场景描述与人工标注对话作为少样本演示,并通过提示词要求 ChatGPT/GPT-4 根据新图像的文本场景生成相应的对话描述。

但是,以往的指令调整数据主要集中于描述整体图像,而不会明确指定空间相关信息。为了收集引用与定位指令调整数据,团队通过以下三个步骤强调基于区域的空间知识:

训练过程

对于训练过程,团队使用 CLIP-ViT-L/14@336p 对图像编码器进行初始化,使用 Vicuna 对大模型进行初始化,使用 LlaVA 的第一阶段权重对投射层进行初始化,借此实现了视觉采样器的随机初始化。初始化完成后,Ferret 在 GRIT 数据上接受了三个轮次(epoch)的训练,使用 Loshchilov & Hutter 进行优化,学习率为 2e − 5,批量大小为 128。

根据介绍,Ferret-13B/7B 模型在 8 张 A100 上的训练分别需要约 5/2.5 天。在训练过程中,当输入引用区域时,团队会随机选择中心点或边界框(在可行时也会选择分割掩膜)来表示各区域,并对训练数据进行了重复数据删除,借此清理下游评估中的样本。

为了评估这项新功能,团队引入了 Ferret-Bench,其涵盖三种新型任务:引用描述 / 引用推理和对话内定位。团队表示,通过对现有多模态大模型进行了基准测试,发现 Ferret 的平均性能较最出色的原有大模型高 20.4%,而且在物体识别的幻觉方面也有所减轻。

概括来讲,Ferret 项目论文的贡献主要为以下三个方面:

结束语

很明显,苹果正在努力追赶这次 AIGC 浪潮。据报道,苹果每天在人工智能上投资数百万美元,内部有多个团队开发多种人工智能模型。

根据报道,苹果致力于对话式人工智能的部门被称为“Foundational Models”,“大约 16 名”成员,其中包括几名前谷歌工程师。该部门由 Apple 人工智能主管 John Giannandrea 掌舵,他于 2018 年受聘帮助改进 Siri。

苹果正在开发自己的大模型“Ajax”。Ajax 旨在与 OpenAI 的 GPT-3 和 GPT-4 等产品相媲美,可运行 2000 亿个参数。Ajax 在内部被称为“Apple GPT”,旨在统一整个 Apple 的机器学习开发,提出了将人工智能更深入地集成到 Apple 生态系统中的更广泛战略。

截至最新报告,Ajax 被认为比上一代 ChatGPT 3.5 更强大。然而,也有人认为,截至 2023 年 9 月,OpenAI 的新模型可能已经超越了 Ajax 的能力。

近日,苹果的机器学习研究团队还悄悄发布了一个名为 MLX 的框架来构建基础模型。彭博社报道称,苹果正在开发 Siri 的改进版本,并计划在下一个重大 iOS 版本中提供以人工智能为中心的功能。

另外,苹果还正在与一些大型新闻出版商洽谈授权其新闻档案,并利用这些信息来训练模型。《纽约时报》称,该公司正在讨论“价值至少 5000 万美元的多年期交易” ,并已与 Condé Nast、NBC News 和 IAC 等出版商保持联系。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-12-26 19:45:40

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

苹果公司公布“mm1”多模态大模型
...dalLLMPre-training》的论文,其中介绍了一款“MM1”多模态大模型,该模型提供30亿、70亿、300亿三种参数规模
2024-03-16 18:48:00
苹果大模型,不藏了
岁末年初,苹果加快了在大模型领域的步伐。上个月,苹果先是推出了名为Ferret的多模态大语言模型,图像处理技术堪称惊艳;而后又发布了一篇题为《闪存中的大型语言模型:在有限内存下高
2024-01-06 09:10:00
...果、微软,苹果推出Apple Intelligence AI系统等等。而在AI大模型方面,最主要事件则是OpenAI推出多模态大模型ChatGPT-4o
2024-12-26 21:56:00
苹果300亿参数大模型首亮相,还买了家AI公司|焦点分析
...武静静编辑|邓咏仪放弃造车后的苹果,正在加速入局大模型战争。当地时间3月15日,苹果就披露了两个关键大模型动作。其中一个值得关注的是苹果的收购事件。彭博社报道称,苹果已经收购
2024-03-16 18:14:00
全国首个 成都创新团队发布机器人多模态模型
中国首个机器人多模态模型,可以相对明确地将水果和非水果进行区分和分拣如果你想吃苹果,根据语音指令,机器人会把苹果送到你手上;如果想收拾干净桌面,机器人就会把桌上所有的东西归置好…
2024-08-13 09:51:00
阶跃星辰李璟:多模态是AGI的必经之路,视觉模型可按语言模型路线实现大一统
...璟发表主题演讲《迎接视觉领域的GPT-4时刻》,分享了大模型技术和应用层面的思考。他表示,今年以来大模型厂商密集的模型发布,意味着追求智能的上限仍然是当下最重要的事情。“我们
2025-05-17 12:05:00
价格便宜75%!亚马逊推出全新大模型系列,3纳米自研芯片明年上市
...逊继续在云计算领域发力,推出全新自研AI(人工智能)模型和芯片。 当地时间12月3日,亚马逊在AWS(亚马逊云服务)年度大会上宣布了一系列新的AI产品
2024-12-04 22:47:00
霸榜全球开源模型前三杭州日报讯 4月2日,全球AI开源圈炸锅了——杭州的3个大模型直接包揽Hugging Face榜单前三
2025-04-03 06:49:00
Motiff妙多发布国内首个UI大模型,效果跑分超越苹果、GPT-4o
...想象。自GPT-4将多模态技术引入公众视野以来,多模态大模型进入快速发展阶段,逐渐从单纯的模型研发转向垂直领域的探索和应用,与各行各业深度融合。在界面交互领域,谷歌、苹果等国
2024-08-19 09:37:00
更多关于科技的资讯:
河北新闻网讯(赵静静、陈立君)日前,开滦集团铁拓公司(简称“开滦铁拓公司”)自主研制出一台液压支架连杆焊接机器人,并在支护设备厂生产车间正式投入应用
2026-01-06 21:24:00
中新经纬1月6日电 据极目新闻报道,1月5日下午,三星电子会长李在镕现身北京京东MALL双井店购物。此前,李在镕出席了由中国贸促会
2026-01-06 21:31:00
江南时报讯 近日,第五届江苏资本市场峰会在南京召开。本次峰会围绕“聚合资本力量,助力产业创新”主题展开,通过多维度量化评价
2026-01-06 22:12:00
河北新闻网讯(闫丽颖、唐福刚)1月2日,在开滦股份范各庄矿井下600多米深处的三水平中央变电所,一位特殊的“新员工”——轨道式智能巡检机器人正式上岗
2026-01-06 21:35:00
1月6日,记者从盒马鲜生总部获悉,山西首店开业筹备已进入最后冲刺阶段。自7日起,线上配送服务陆续开启,这意味着以“盒区房生活”为代表的新零售方式正式步入太原人的生活日常
2026-01-06 20:06:00
2026成长新启示:张德芬《遇见未知的自己》解锁“爱你老己”,让自我陪伴成为终身底气
“亲爱的,外面没有别人,只有你自己。”张德芬在《遇见未知的自己》中写下的这句经典箴言,于2026年岁末年初再度引爆社交平台
2026-01-06 17:17:00
中国消费者报海口讯(记者董芳忠)近日,在海南省海口市举办的全国信标委人工智能分委会“标准周”活动期间,国内首张大模型高阶通用能力国家标准符合性测试证书正式颁发
2026-01-06 18:25:00
更名、AI巨头探访、股价大幅上涨,喜临门开门红!
近期,喜临门宣布更名“睡眠科技”,在资本市场与全球舆论场同步引发回响。国内市场方面,其股价稳步上扬并获资金持续买入,新年开盘第一个交易日打开涨停
2026-01-06 19:42:00
海尔三筒洗衣机越南热卖,夯实高端第一地位
海尔三筒洗衣机自10月登陆越南市场后,凭借独特设计与卓越性能迅速实现热卖。不仅赢得当地中产群体广泛认可,更推动在当地2000越南盾以上高端价位段实现0到13%的份额突破
2026-01-06 19:46:00
2026国家补贴已上线,河北廊坊消费者顺利签收省内冰箱国补首单
河北新闻网讯(记者 李春炜)2026年伊始,国家新一轮家电补贴政策于元旦起正式生效,各地消费者纷纷抓住机遇。其中,河北省廊坊市的王女士成为首批受益者
2026-01-06 17:06:00
乐佳善优品牌全指南:知名高端母婴营养品牌的成长与内核
乐佳善优,一个在中国母婴营养品领域深耕超过 16 年的知名品牌,凭借其 “专注营养,健康无忧”的核心理念,已成为众多中国家庭信赖的健康伙伴
2026-01-06 14:23:00
2026年初,人工智能已不再只是科技圈的热词,而是加速渗透进千行百业的真实生产力工具。据多家研究机构预测,今年将成为AI应用“规模化落地”的元年——企业对AI的需求正从“要不要用”转向“怎么用好”
2026-01-06 14:46:00
长白时评评论员 唐小兰当车厘子零售价从每斤数百元跌至百元以内,消费者在社交媒体上欢呼“车厘子自由”的同时,一种新的烦恼正在蔓延——价格是下来了
2026-01-06 15:59:00
随着生成式AI技术全面重塑信息检索生态,企业如何在新型搜索场景中有效触达目标受众,已成为区域经济发展中的重要课题。以山东同风起信息科技有限公司为代表的优秀山东GEO优化企业
2026-01-06 16:09:00
激活情感IP 1314爱购节北京启幕新质消费新范式
1月3日至1月4日,为响应国家扩大内需、培育新质消费战略,由中国通信工业协会指导、中国通信工业协会平台经济创新专委会主办
2026-01-06 16:14:00