• 我的订阅
  • 科技

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

类别:科技 发布时间:2023-09-18 18:05:00 来源:量子位

苹果Transformer的“秘密”,让发烧友给扒出来了。

大模型浪潮下,即使保守如苹果,也每逢发布会必提“Transformer”。

比如,在今年的WWDC上,苹果就已宣布,船新版本的iOS和macOS将内置Transformer语言模型,以提供带文本预测功能的输入法。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

苹果官方没有透露更多信息,但技术爱好者们可坐不住了。

一位名叫Jack Cook的小哥,就把macOS Sonoma beta翻了个底朝天,结果,还真挖出不少新鲜信息:

模型架构上,Cook小哥认为苹果的语言模型更像是基于GPT-2打造的。 在分词器(tokenizer)方面,表情符号在其中十分突出。

更多细节,一起来看。

基于GPT-2架构

先来回顾一下苹果基于Transformer的语言模型能在iPhone、MacBook等设备上实现怎样的功能。

主要体现在输入法方面。语言模型加持下的苹果自带输入法,可以实现单词预测和纠错的功能。

Jack Cook小哥具体测试了一下,发现这个功能主要实现的是针对单个单词的预测。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

△图源:Jack Cook博客文章

模型有时也会预测即将出现的多个单词,但这仅限于句子语义十分明显的情况,比较类似于Gmail里的自动完成功能。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

△图源:Jack Cook博客文章

那么这个模型具体被装在了哪里?一通深入挖掘之后,Cook小哥确定:

我在/System/Library/LinguisticData/RequiredAssets_en.bundle/AssetData/en.lm/unilm.bundle 中找到了预测文本模型。

原因是:

    unilm.bundle中的许多文件在macOS Ventura(13.5)里并不存在,仅出现在了新版本macOS Sonoma beta(14.0)里。 unilm.bundle中存在一个sp.dat文件,这在Ventura和Sonoma beta里都能找到,但Sonoma beta的版本中更新了明显像是分词器的一组token。 sp.dat中token的数量跟unilm.bundle中的两个文件——unilm_joint_cpu.espresso.shape和unilm_joint_ane.espresso.shape能匹配得上。这两个文件描述了Espresso/CoreML模型中各层的形状。

进而,小哥根据unilm_joint_cpu中描述的网络结构,推测苹果模型是基于GPT-2架构打造的:

主要包含token embeddings、位置编码、解码器块和输出层,每个解码器块中都有类似gpt2_transformer_layer_3d这样的字眼。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

△图源:Jack Cook博客文章

根据每层大小,小哥还推测,苹果模型约有3400万参数,隐藏层大小是512。也就是说,它比GPT-2最小的版本还要小。

小哥认为,这主要是因为苹果想要一种不太耗电,但同时能够快速、频繁运行的模型。

而苹果官方在WWDC上的说法是,“每点击一个键,iPhone就会运行模型一次”。

不过,这也就意味着,这个文本预测模型并不能很好地完整续写句子或段落。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

△图源:Jack Cook博客文章

模型架构之外,Cook小哥还挖出了分词器(tokenizer)的相关信息。

他在unilm.bundle/sp.dat里发现了一组数量为15000的token,值得关注的是,其中包含100个emoji。

Cook揭秘库克

尽管此Cook非彼库克,小哥的博客文章一发出,还是吸引了不少关注。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

基于他的发现,网友们热烈地讨论起苹果在用户体验和前沿技术应用之间的平衡大法。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

回到Jack Cook本人,他本科和硕士毕业于MIT的计算机专业,目前还在攻读牛津大学的互联网社会科学硕士学位。

此前,他曾在英伟达实习,专注于BERT等语言模型的研究。他还是《纽约时报》的自然语言处理高级研发工程师。

那么,他的这一番揭秘是否也引发了你的一些思考?欢迎在评论区分享观点~

— 完 —

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-09-18 20:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

苹果300亿参数大模型首亮相,还买了家AI公司|焦点分析
...材”可以帮助大模型更好地适应不同类型的问题。模型的架构和训练过程,包括模型大小和训练超参数的选择,对于模型性能很重要,可以理解为在“建造大模型大楼”的过程中,需要选择“合适的
2024-03-16 18:14:00
苹果将推出全新ai培训课程
...新闻稿,将于今年秋季面向开发者学院的学生、导师以及校友等,推出全新的AI培训课程。新的核心课程首批将面向6个国家(巴西、印度尼西亚、意大利、沙特阿拉伯、韩国和美国)的18所开
2024-06-19 10:08:00
浙大校友自研跨模态模型,打造具身智能的“通用语法”
...训练变得极为困难甚至无法实现。而大模型中 Transformer 架构的引入,则使模型具有高效的并行计算能力与灵活性,从而可以处理大规模数据集,并能通过微调预训练模型,快速适
2024-03-22 10:31:00
首个“开源chatgpt”来了:基于谷歌5400亿参数大模型
...首个开源ChatGPT项目已经出现了!基于谷歌语言大模型PaLM架构,以及使用从人类反馈中强化学习的方法(RLHF)
2022-12-30 20:18:00
苹果公司公布“mm1”多模态大模型
...模型的性能有不同的影响。据介绍,研究团队首先在模型架构决策和预训练数据上进行小规模消融实验。之后利用混合专家(MixtureofExperts)架构及一种名为Top-2Gating的方法构建了MM1模型
2024-03-16 18:48:00
GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」
...所有情况下的评估均使用了1600个示例。研究者使用标准架构组件(自注意力、MLP、layer norm等)训练Transformer模型
2024-09-09 13:36:00
一块GPU都没用,苹果自研大模型干翻GPT-4?
...模型AFM-server,尚未公布模型参数。报告首次对AFM的模型架构、训练数据、训练过程、推理优化及评估结果进行了解读
2024-07-31 09:37:00
“苹果智能”仅面向付费开发者,三大新模块炸裂出圈
...在于芯片级别的互联性特别高。苹果的技术论文表明,TPU架构可以开发更大、更复杂的AI模型。三大新模块炸裂出圈随着iOS18
2024-07-31 23:28:00
苹果发布mm1.5-ui模型
...了300亿参数的多模态AI大模型MM1.5,该版本是在前代MM1的架构基础上发展而来的。该模型继续遵循数据驱动的训练原则
2024-10-13 10:57:00
更多关于科技的资讯:
“万物科普”精彩继续 “智造”妙趣点亮新春 扫码阅读手机版
2月11日上午,河西区图书馆“万物科普课堂”迎来第二场精彩活动。本次“神奇‘印’记——3D打印共塑马年新章”专场,将前沿的3D打印技术与激光切割工艺深度融合
2026-02-12 14:30:00
中新经纬2月12日电 (张宁)据韩联社12日报道,12日,路易威登(LV)、迪奥(DIOR)、蒂芙尼(Tiffany&
2026-02-12 14:50:00
5 厘米高精度建模!中建八局以倾斜摄影技术为雄安数字建设注入新动能
近日,在雄安新区启动区国家能源集团雄安基地项目施工现场,一架搭载五镜头传感器的无人机平稳降落,标志着项目施工总包单位中国建筑第八工程局有限公司顺利完成本月第三次全域实景数据采集工作
2026-02-12 14:54:00
索乙家政服务是扩大内需的重要支点。随着居民人均服务性消费支出占比已接近居民消费的“半壁江山”,家政行业也迎来战略机遇期
2026-02-12 15:00:00
胡欣红最近,“要不要对AI说谢谢”引发社会热议。这场讨论并非空穴来风,据媒体报道,对于AI来说,每一次“谢谢”都相当于一次指令
2026-02-12 15:00:00
鲁网2月12日讯近日,华为智能生活馆·青岛乐客城店盛大启幕。作为青岛地区首个超千平智能生活馆,该店以约1317平方米的超大体量
2026-02-12 15:28:00
岚图汽车成功完成港股上市前置审批 即将登陆香港联交所
2月12日,岚图汽车宣布已获得香港联交所的原则性同意,标志着其港股上市的全部前置监管审批流程已顺利完成。这一进程仅用四个月
2026-02-12 16:20:00
高端润滑油的智造密码
2月9日,润滑油北京有限公司员工加紧节前生产,确保高质量交付客户产品。本报记者 程阳 摄 郑德辉 文2月9日,中国石化报记者来到润滑油北京有限公司
2026-02-12 11:53:00
中新经纬2月12日电 据“北京市场监管”微信号12日消息,近日,北京市市场监督管理局组织携程、去哪儿、飞猪、同程、美团
2026-02-12 11:57:00
聚焦雄安新区丨“人工智能+”开拓产业发展新赛道
“人工智能+”开拓产业发展新赛道——2026年雄安新区“人工智能+”创新生态系列活动观察人工智能,是雄安新区大力发展的主导产业之一
2026-02-12 08:47:00
在多个短视频平台和电商平台上,不少账号公开发布视频,称可以绕开一些平台的人脸识别验证。这些视频中,有人遮挡住手机摄像头
2026-02-12 08:58:00
当前,健康中国战略深入实施,智能健身市场需求激增,舒华体育深化"AI运动科技"定位,推动奥运技术全面渗透至各类场景,让大众共享科学健身成果
2026-02-12 09:28:00
以旧换新激活潍坊消费新引擎:一场政策引领的绿色消费革命
鲁网2月11日讯(记者 王玉龙)2025年,潍坊市消费品以旧换新直接拉动消费160亿元,是2024年的4.2倍;129万人次享受到20
2026-02-12 09:56:00
“西湖纹样”小程序正式上线杭州日报讯 第十九届杭州文博会上,西湖区的展馆前天天大排长龙。纹样编织袋、纹样透卡、纹样茶点礼盒
2026-02-12 06:41:00