• 我的订阅
  • 科技

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

类别:科技 发布时间:2023-09-18 18:05:00 来源:量子位

苹果Transformer的“秘密”,让发烧友给扒出来了。

大模型浪潮下,即使保守如苹果,也每逢发布会必提“Transformer”。

比如,在今年的WWDC上,苹果就已宣布,船新版本的iOS和macOS将内置Transformer语言模型,以提供带文本预测功能的输入法。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

苹果官方没有透露更多信息,但技术爱好者们可坐不住了。

一位名叫Jack Cook的小哥,就把macOS Sonoma beta翻了个底朝天,结果,还真挖出不少新鲜信息:

模型架构上,Cook小哥认为苹果的语言模型更像是基于GPT-2打造的。 在分词器(tokenizer)方面,表情符号在其中十分突出。

更多细节,一起来看。

基于GPT-2架构

先来回顾一下苹果基于Transformer的语言模型能在iPhone、MacBook等设备上实现怎样的功能。

主要体现在输入法方面。语言模型加持下的苹果自带输入法,可以实现单词预测和纠错的功能。

Jack Cook小哥具体测试了一下,发现这个功能主要实现的是针对单个单词的预测。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

△图源:Jack Cook博客文章

模型有时也会预测即将出现的多个单词,但这仅限于句子语义十分明显的情况,比较类似于Gmail里的自动完成功能。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

△图源:Jack Cook博客文章

那么这个模型具体被装在了哪里?一通深入挖掘之后,Cook小哥确定:

我在/System/Library/LinguisticData/RequiredAssets_en.bundle/AssetData/en.lm/unilm.bundle 中找到了预测文本模型。

原因是:

    unilm.bundle中的许多文件在macOS Ventura(13.5)里并不存在,仅出现在了新版本macOS Sonoma beta(14.0)里。 unilm.bundle中存在一个sp.dat文件,这在Ventura和Sonoma beta里都能找到,但Sonoma beta的版本中更新了明显像是分词器的一组token。 sp.dat中token的数量跟unilm.bundle中的两个文件——unilm_joint_cpu.espresso.shape和unilm_joint_ane.espresso.shape能匹配得上。这两个文件描述了Espresso/CoreML模型中各层的形状。

进而,小哥根据unilm_joint_cpu中描述的网络结构,推测苹果模型是基于GPT-2架构打造的:

主要包含token embeddings、位置编码、解码器块和输出层,每个解码器块中都有类似gpt2_transformer_layer_3d这样的字眼。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

△图源:Jack Cook博客文章

根据每层大小,小哥还推测,苹果模型约有3400万参数,隐藏层大小是512。也就是说,它比GPT-2最小的版本还要小。

小哥认为,这主要是因为苹果想要一种不太耗电,但同时能够快速、频繁运行的模型。

而苹果官方在WWDC上的说法是,“每点击一个键,iPhone就会运行模型一次”。

不过,这也就意味着,这个文本预测模型并不能很好地完整续写句子或段落。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

△图源:Jack Cook博客文章

模型架构之外,Cook小哥还挖出了分词器(tokenizer)的相关信息。

他在unilm.bundle/sp.dat里发现了一组数量为15000的token,值得关注的是,其中包含100个emoji。

Cook揭秘库克

尽管此Cook非彼库克,小哥的博客文章一发出,还是吸引了不少关注。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

基于他的发现,网友们热烈地讨论起苹果在用户体验和前沿技术应用之间的平衡大法。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

回到Jack Cook本人,他本科和硕士毕业于MIT的计算机专业,目前还在攻读牛津大学的互联网社会科学硕士学位。

此前,他曾在英伟达实习,专注于BERT等语言模型的研究。他还是《纽约时报》的自然语言处理高级研发工程师。

那么,他的这一番揭秘是否也引发了你的一些思考?欢迎在评论区分享观点~

— 完 —

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-09-18 20:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

苹果300亿参数大模型首亮相,还买了家AI公司|焦点分析
...材”可以帮助大模型更好地适应不同类型的问题。模型的架构和训练过程,包括模型大小和训练超参数的选择,对于模型性能很重要,可以理解为在“建造大模型大楼”的过程中,需要选择“合适的
2024-03-16 18:14:00
浙大校友自研跨模态模型,打造具身智能的“通用语法”
...训练变得极为困难甚至无法实现。而大模型中 Transformer 架构的引入,则使模型具有高效的并行计算能力与灵活性,从而可以处理大规模数据集,并能通过微调预训练模型,快速适
2024-03-22 10:31:00
苹果将推出全新ai培训课程
...新闻稿,将于今年秋季面向开发者学院的学生、导师以及校友等,推出全新的AI培训课程。新的核心课程首批将面向6个国家(巴西、印度尼西亚、意大利、沙特阿拉伯、韩国和美国)的18所开
2024-06-19 10:08:00
首个“开源chatgpt”来了:基于谷歌5400亿参数大模型
...首个开源ChatGPT项目已经出现了!基于谷歌语言大模型PaLM架构,以及使用从人类反馈中强化学习的方法(RLHF)
2022-12-30 20:18:00
GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」
...所有情况下的评估均使用了1600个示例。研究者使用标准架构组件(自注意力、MLP、layer norm等)训练Transformer模型
2024-09-09 13:36:00
苹果公司公布“mm1”多模态大模型
...模型的性能有不同的影响。据介绍,研究团队首先在模型架构决策和预训练数据上进行小规模消融实验。之后利用混合专家(MixtureofExperts)架构及一种名为Top-2Gating的方法构建了MM1模型
2024-03-16 18:48:00
一块GPU都没用,苹果自研大模型干翻GPT-4?
...模型AFM-server,尚未公布模型参数。报告首次对AFM的模型架构、训练数据、训练过程、推理优化及评估结果进行了解读
2024-07-31 09:37:00
“苹果智能”仅面向付费开发者,三大新模块炸裂出圈
...在于芯片级别的互联性特别高。苹果的技术论文表明,TPU架构可以开发更大、更复杂的AI模型。三大新模块炸裂出圈随着iOS18
2024-07-31 23:28:00
苹果发布mm1.5-ui模型
...了300亿参数的多模态AI大模型MM1.5,该版本是在前代MM1的架构基础上发展而来的。该模型继续遵循数据驱动的训练原则
2024-10-13 10:57:00
更多关于科技的资讯:
农行固堤支行积极拥抱金融科技,全力推动网点智能化转型与服务升级。大力推广手机银行、网上银行等线上渠道,引导客户体验转账汇款
2025-12-24 08:41:00
“您站好,用手机拍正面、侧面、背面三张照片。3分钟后,您不仅能知道最适合自己的衣服尺寸,还能在电脑上实时看到自己穿上这件衣服的虚拟效果
2025-12-24 08:42:00
日前,中国进出口银行深圳分行向纵腾集团子公司香港亿格有限公司发放境外投资贷款,精准助力企业提升跨境电商海外仓运营效能,为跨境电商行业高质量发展注入金融活水
2025-12-24 08:44:00
苏州市镇江商会副会长单位【旭智文化】荣膺2025年度省级专精特新中小企业称号
近日,江苏省工业和信息化厅正式公布2025年度省级专精特新中小企业名单。苏州市镇江商会副会长单位苏州旭智新文化科技有限公司凭借在数字展馆领域的创新研发
2025-12-24 09:03:00
浙江日报讯 (记者 朱银燕 共享联盟·上虞 张汉锋) “我宣布,在浙江绍兴上虞发起的‘与移动机器人连续对打羽毛球次数最多’挑战的最终成绩为1452次
2025-12-24 09:14:00
为迎接即将到来的年度业务“开门红”,张家口农商银行宣泰支行早部署、早行动,全面启动客户储备工作,通过一系列精准、贴心的举措
2025-12-24 10:11:00
京东方布局钙钛矿光伏 多项成果创世界纪录
大皖新闻讯 钙钛矿太阳能电池是依靠钙钛矿结构材料进行光电转换的一种新型光伏电池,可以在室内弱光条件下高效发电,为自动照明
2025-12-24 10:13:00
东古调味与淘宝闪购战略携手,深化即时零售布局
近日,国民调味品牌东古调味与淘宝闪购达成合作,启动“东古暖冬感恩季”主题活动。值得关注的是,双方的合作不仅限于商品推广
2025-12-24 11:04:00
不仅是黑科技,更是新生活:亮亮视野AR字幕眼镜获AIS与联合国双重认可
国际信息系统协会(Association for Information Systems, AIS)近日在美国纳什维尔举办的ICIS 2025大会上宣布
2025-12-24 11:04:00
创新赋能产业升级!千灯镇新增11家苏州市工程技术研究中心
近日,苏州市科学技术局公示2025年苏州市工程技术研究中心(第二批)新建拟认定名单,其中,来自我镇的11家企业成功上榜
2025-12-24 11:26:00
今日开启!“烟海e家”新用户1分钱领鸡蛋,手慢无!
发福蛋了!烟海e家客户端“新粉有特权,1分钱领鸡蛋”活动今日正式启动!即日起至28日24时,烟海e家新注册用户“1分钱+100积分”
2025-12-24 13:52:00
京东工业亮相京东品酒会 以创新持续助力工业产业万亿降本
12月23日,备受关注的京东品酒会在深圳鹏瑞莱佛士酒店举办,本次品酒会由京东工业和人头马携手呈现,不仅联合打造了一场融合美酒品鉴
2025-12-24 14:04:00
瑞金医院携手富士胶片揭牌培训基地 赋能医疗技术培训新未来
2025年12月21日,富士胶片智慧医疗技术培训中心(以下简称"该中心")迎来成立两周年之际,上海交通大学医学院附属瑞金医院胸外科腔镜/内镜(NBSTAT 课程)合作培训基地揭牌仪式于该中心隆重举行
2025-12-24 15:05:00
数智赋能,知行致远——上海大学悉尼工商学院SHU-UTS硕士项目学生走进商汤科技
为搭建理论与实践的桥梁,助力学生近距离感知人工智能产业前沿动态,近日,上海大学悉尼工商学院SHU-UTS硕士项目学生走进商汤科技
2025-12-24 15:05:00
浪潮华鼎:破局能源数智化转型,共筑安全高效新基建
近日,以“新质强国·数智赋能·绿色出海·共赢未来”为主题的第二届能源数智化论坛在北京举行。本届论坛由中国信息协会指导、中国信息协会能源工作委员会主办
2025-12-24 15:57:00