• 我的订阅
  • 科技

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

类别:科技 发布时间:2023-09-18 18:05:00 来源:量子位

苹果Transformer的“秘密”,让发烧友给扒出来了。

大模型浪潮下,即使保守如苹果,也每逢发布会必提“Transformer”。

比如,在今年的WWDC上,苹果就已宣布,船新版本的iOS和macOS将内置Transformer语言模型,以提供带文本预测功能的输入法。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

苹果官方没有透露更多信息,但技术爱好者们可坐不住了。

一位名叫Jack Cook的小哥,就把macOS Sonoma beta翻了个底朝天,结果,还真挖出不少新鲜信息:

模型架构上,Cook小哥认为苹果的语言模型更像是基于GPT-2打造的。 在分词器(tokenizer)方面,表情符号在其中十分突出。

更多细节,一起来看。

基于GPT-2架构

先来回顾一下苹果基于Transformer的语言模型能在iPhone、MacBook等设备上实现怎样的功能。

主要体现在输入法方面。语言模型加持下的苹果自带输入法,可以实现单词预测和纠错的功能。

Jack Cook小哥具体测试了一下,发现这个功能主要实现的是针对单个单词的预测。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

△图源:Jack Cook博客文章

模型有时也会预测即将出现的多个单词,但这仅限于句子语义十分明显的情况,比较类似于Gmail里的自动完成功能。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

△图源:Jack Cook博客文章

那么这个模型具体被装在了哪里?一通深入挖掘之后,Cook小哥确定:

我在/System/Library/LinguisticData/RequiredAssets_en.bundle/AssetData/en.lm/unilm.bundle 中找到了预测文本模型。

原因是:

    unilm.bundle中的许多文件在macOS Ventura(13.5)里并不存在,仅出现在了新版本macOS Sonoma beta(14.0)里。 unilm.bundle中存在一个sp.dat文件,这在Ventura和Sonoma beta里都能找到,但Sonoma beta的版本中更新了明显像是分词器的一组token。 sp.dat中token的数量跟unilm.bundle中的两个文件——unilm_joint_cpu.espresso.shape和unilm_joint_ane.espresso.shape能匹配得上。这两个文件描述了Espresso/CoreML模型中各层的形状。

进而,小哥根据unilm_joint_cpu中描述的网络结构,推测苹果模型是基于GPT-2架构打造的:

主要包含token embeddings、位置编码、解码器块和输出层,每个解码器块中都有类似gpt2_transformer_layer_3d这样的字眼。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

△图源:Jack Cook博客文章

根据每层大小,小哥还推测,苹果模型约有3400万参数,隐藏层大小是512。也就是说,它比GPT-2最小的版本还要小。

小哥认为,这主要是因为苹果想要一种不太耗电,但同时能够快速、频繁运行的模型。

而苹果官方在WWDC上的说法是,“每点击一个键,iPhone就会运行模型一次”。

不过,这也就意味着,这个文本预测模型并不能很好地完整续写句子或段落。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

△图源:Jack Cook博客文章

模型架构之外,Cook小哥还挖出了分词器(tokenizer)的相关信息。

他在unilm.bundle/sp.dat里发现了一组数量为15000的token,值得关注的是,其中包含100个emoji。

Cook揭秘库克

尽管此Cook非彼库克,小哥的博客文章一发出,还是吸引了不少关注。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

基于他的发现,网友们热烈地讨论起苹果在用户体验和前沿技术应用之间的平衡大法。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

回到Jack Cook本人,他本科和硕士毕业于MIT的计算机专业,目前还在攻读牛津大学的互联网社会科学硕士学位。

此前,他曾在英伟达实习,专注于BERT等语言模型的研究。他还是《纽约时报》的自然语言处理高级研发工程师。

那么,他的这一番揭秘是否也引发了你的一些思考?欢迎在评论区分享观点~

— 完 —

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-09-18 20:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

苹果300亿参数大模型首亮相,还买了家AI公司|焦点分析
...材”可以帮助大模型更好地适应不同类型的问题。模型的架构和训练过程,包括模型大小和训练超参数的选择,对于模型性能很重要,可以理解为在“建造大模型大楼”的过程中,需要选择“合适的
2024-03-16 18:14:00
苹果将推出全新ai培训课程
...新闻稿,将于今年秋季面向开发者学院的学生、导师以及校友等,推出全新的AI培训课程。新的核心课程首批将面向6个国家(巴西、印度尼西亚、意大利、沙特阿拉伯、韩国和美国)的18所开
2024-06-19 10:08:00
浙大校友自研跨模态模型,打造具身智能的“通用语法”
...训练变得极为困难甚至无法实现。而大模型中 Transformer 架构的引入,则使模型具有高效的并行计算能力与灵活性,从而可以处理大规模数据集,并能通过微调预训练模型,快速适
2024-03-22 10:31:00
首个“开源chatgpt”来了:基于谷歌5400亿参数大模型
...首个开源ChatGPT项目已经出现了!基于谷歌语言大模型PaLM架构,以及使用从人类反馈中强化学习的方法(RLHF)
2022-12-30 20:18:00
苹果公司公布“mm1”多模态大模型
...模型的性能有不同的影响。据介绍,研究团队首先在模型架构决策和预训练数据上进行小规模消融实验。之后利用混合专家(MixtureofExperts)架构及一种名为Top-2Gating的方法构建了MM1模型
2024-03-16 18:48:00
GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」
...所有情况下的评估均使用了1600个示例。研究者使用标准架构组件(自注意力、MLP、layer norm等)训练Transformer模型
2024-09-09 13:36:00
一块GPU都没用,苹果自研大模型干翻GPT-4?
...模型AFM-server,尚未公布模型参数。报告首次对AFM的模型架构、训练数据、训练过程、推理优化及评估结果进行了解读
2024-07-31 09:37:00
“苹果智能”仅面向付费开发者,三大新模块炸裂出圈
...在于芯片级别的互联性特别高。苹果的技术论文表明,TPU架构可以开发更大、更复杂的AI模型。三大新模块炸裂出圈随着iOS18
2024-07-31 23:28:00
苹果发布mm1.5-ui模型
...了300亿参数的多模态AI大模型MM1.5,该版本是在前代MM1的架构基础上发展而来的。该模型继续遵循数据驱动的训练原则
2024-10-13 10:57:00
更多关于科技的资讯:
近日,武汉光谷正式发布超级工厂线、人工智能线、低空文旅线三条科技旅游路线,已吸引超2万名学生体验空轨、超2万人次走进科技企业
2026-03-19 08:03:00
vivo联合南开大学启动第三届AIGC创新赛,赋能青年AI创新实践
3月15日,由vivo与南开大学联合承办的第三届“中国高校计算机大赛-AIGC创新赛”在南开大学正式启动。vivo副总裁
2026-03-19 08:05:00
2026年3月18日国内预制食材行业领军企业联舌工坊在刚刚落幕的年度战略发布会上正式宣布,2025年公司年产值已达25
2026-03-19 08:07:00
发展新质生产力 推进新型工业化太重集团3月17日传来喜讯:直径426毫米不锈钢卧式穿孔机完成研发,正式转入制造阶段。至此
2026-03-19 07:14:00
打开雄安的九种方式(四)|AI大模型诞生记
AI大模型诞生记——打开雄安的九种方式(四)3月17日,稳准智能(雄安)科技有限公司联合创始人兼CEO张天扬与工作人员探讨“极数”数据大模型(LimiX)的优化升级方案
2026-03-19 07:47:00
我省出台“人工智能+交通运输”创新应用实施意见2027年将落地部署一系列交通运输垂域大模型河北新闻网讯(河北日报记者曹智)日前
2026-03-19 07:49:00
科技赋能经络养护,中昕给出的答案远不止一台设备
经络养生赛道正在经历一场静默的变革当一些消费者还停留在“经络养生就是推拿按摩”的认知时,行业的前端已经在用智能设备、数字化管理和标准化流程重新定义服务交付
2026-03-18 21:22:00
AI时代的革新者:橙啦聚焦年轻人升学就业场景
当人工智能浪潮席卷各行各业,教育领域的变革早已暗流涌动。从“千人一面”的标准化教学,到“千人千面”的个性化赋能,AI正在重新定义学习的路径
2026-03-18 21:25:00
华帝潘叶钊:品牌定力,是穿越周期的第一课
风云激荡的全球产业链大变局下,厨电行业深陷存量竞争、参数内卷的发展困局,家电企业如何破局高端化、穿越行业周期?华帝股份有限公司CMO潘叶钊的这番主题演讲和会后专访
2026-03-18 21:26:00
3月16日,在2026雄安国际医疗大健康技术应用大赛场景打造对接会现场,联城科技(河北)股份有限公司副总经理吕晓栓分享了医疗大模型赋能智能编码与医保控费解决方案
2026-03-18 18:05:00
京东集团旗下的全新欧洲线上零售品牌Joybuy自3月16日正式上线以来,迅速引爆欧洲市场。上线仅两天时间,Joybuy APP就登顶英国
2026-03-18 19:29:00
【荐书】技术之眼与伦理之困:评《技术的困境:人脸识别的应用与规制》
《技术的困境:人脸识别的应用与规制》以人脸识别这一高度现实化的技术议题为切入点,深入探讨数字社会中技术发展所引发的伦理
2026-03-18 14:14:00
定义手柄29年后,北通选择“亲手打破规则”
2024年,《黑神话:悟空》的横空出世,这款现象级作品不仅点燃了国产3A的希望,紧随其后的是市场的热烈回应,2025年
2026-03-18 14:29:00
让“中国芯”读懂“世界证”国产护照阅读器让出入境“秒通关”
随着中国免签“朋友圈”持续扩大,越来越多外国游客来华“打卡”,国人也热衷于踏出国门看世界。在机场、高铁站、酒店前台,如何让一本本不同语言的护照实现“秒速识别”
2026-03-18 14:45:00
小牛电动开启“造AI好车”新十年
海外网3月17日电(记者 刘少华)以“真科技,就要小牛”为主题的2026小牛电动科技新品发布会在北京举办。小牛电动于会上正式发布全球首款AI智能两轮电动车车机系统——小牛灵犀AIOS(NIU AIOS)
2026-03-18 14:53:00