• 我的订阅
  • 科技

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

类别:科技 发布时间:2023-09-18 18:05:00 来源:量子位

苹果Transformer的“秘密”,让发烧友给扒出来了。

大模型浪潮下,即使保守如苹果,也每逢发布会必提“Transformer”。

比如,在今年的WWDC上,苹果就已宣布,船新版本的iOS和macOS将内置Transformer语言模型,以提供带文本预测功能的输入法。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

苹果官方没有透露更多信息,但技术爱好者们可坐不住了。

一位名叫Jack Cook的小哥,就把macOS Sonoma beta翻了个底朝天,结果,还真挖出不少新鲜信息:

模型架构上,Cook小哥认为苹果的语言模型更像是基于GPT-2打造的。 在分词器(tokenizer)方面,表情符号在其中十分突出。

更多细节,一起来看。

基于GPT-2架构

先来回顾一下苹果基于Transformer的语言模型能在iPhone、MacBook等设备上实现怎样的功能。

主要体现在输入法方面。语言模型加持下的苹果自带输入法,可以实现单词预测和纠错的功能。

Jack Cook小哥具体测试了一下,发现这个功能主要实现的是针对单个单词的预测。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

△图源:Jack Cook博客文章

模型有时也会预测即将出现的多个单词,但这仅限于句子语义十分明显的情况,比较类似于Gmail里的自动完成功能。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

△图源:Jack Cook博客文章

那么这个模型具体被装在了哪里?一通深入挖掘之后,Cook小哥确定:

我在/System/Library/LinguisticData/RequiredAssets_en.bundle/AssetData/en.lm/unilm.bundle 中找到了预测文本模型。

原因是:

    unilm.bundle中的许多文件在macOS Ventura(13.5)里并不存在,仅出现在了新版本macOS Sonoma beta(14.0)里。 unilm.bundle中存在一个sp.dat文件,这在Ventura和Sonoma beta里都能找到,但Sonoma beta的版本中更新了明显像是分词器的一组token。 sp.dat中token的数量跟unilm.bundle中的两个文件——unilm_joint_cpu.espresso.shape和unilm_joint_ane.espresso.shape能匹配得上。这两个文件描述了Espresso/CoreML模型中各层的形状。

进而,小哥根据unilm_joint_cpu中描述的网络结构,推测苹果模型是基于GPT-2架构打造的:

主要包含token embeddings、位置编码、解码器块和输出层,每个解码器块中都有类似gpt2_transformer_layer_3d这样的字眼。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

△图源:Jack Cook博客文章

根据每层大小,小哥还推测,苹果模型约有3400万参数,隐藏层大小是512。也就是说,它比GPT-2最小的版本还要小。

小哥认为,这主要是因为苹果想要一种不太耗电,但同时能够快速、频繁运行的模型。

而苹果官方在WWDC上的说法是,“每点击一个键,iPhone就会运行模型一次”。

不过,这也就意味着,这个文本预测模型并不能很好地完整续写句子或段落。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

△图源:Jack Cook博客文章

模型架构之外,Cook小哥还挖出了分词器(tokenizer)的相关信息。

他在unilm.bundle/sp.dat里发现了一组数量为15000的token,值得关注的是,其中包含100个emoji。

Cook揭秘库克

尽管此Cook非彼库克,小哥的博客文章一发出,还是吸引了不少关注。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

基于他的发现,网友们热烈地讨论起苹果在用户体验和前沿技术应用之间的平衡大法。

揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品

回到Jack Cook本人,他本科和硕士毕业于MIT的计算机专业,目前还在攻读牛津大学的互联网社会科学硕士学位。

此前,他曾在英伟达实习,专注于BERT等语言模型的研究。他还是《纽约时报》的自然语言处理高级研发工程师。

那么,他的这一番揭秘是否也引发了你的一些思考?欢迎在评论区分享观点~

— 完 —

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-09-18 20:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

苹果300亿参数大模型首亮相,还买了家AI公司|焦点分析
...材”可以帮助大模型更好地适应不同类型的问题。模型的架构和训练过程,包括模型大小和训练超参数的选择,对于模型性能很重要,可以理解为在“建造大模型大楼”的过程中,需要选择“合适的
2024-03-16 18:14:00
浙大校友自研跨模态模型,打造具身智能的“通用语法”
...训练变得极为困难甚至无法实现。而大模型中 Transformer 架构的引入,则使模型具有高效的并行计算能力与灵活性,从而可以处理大规模数据集,并能通过微调预训练模型,快速适
2024-03-22 10:31:00
苹果将推出全新ai培训课程
...新闻稿,将于今年秋季面向开发者学院的学生、导师以及校友等,推出全新的AI培训课程。新的核心课程首批将面向6个国家(巴西、印度尼西亚、意大利、沙特阿拉伯、韩国和美国)的18所开
2024-06-19 10:08:00
首个“开源chatgpt”来了:基于谷歌5400亿参数大模型
...首个开源ChatGPT项目已经出现了!基于谷歌语言大模型PaLM架构,以及使用从人类反馈中强化学习的方法(RLHF)
2022-12-30 20:18:00
GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」
...所有情况下的评估均使用了1600个示例。研究者使用标准架构组件(自注意力、MLP、layer norm等)训练Transformer模型
2024-09-09 13:36:00
苹果公司公布“mm1”多模态大模型
...模型的性能有不同的影响。据介绍,研究团队首先在模型架构决策和预训练数据上进行小规模消融实验。之后利用混合专家(MixtureofExperts)架构及一种名为Top-2Gating的方法构建了MM1模型
2024-03-16 18:48:00
一块GPU都没用,苹果自研大模型干翻GPT-4?
...模型AFM-server,尚未公布模型参数。报告首次对AFM的模型架构、训练数据、训练过程、推理优化及评估结果进行了解读
2024-07-31 09:37:00
“苹果智能”仅面向付费开发者,三大新模块炸裂出圈
...在于芯片级别的互联性特别高。苹果的技术论文表明,TPU架构可以开发更大、更复杂的AI模型。三大新模块炸裂出圈随着iOS18
2024-07-31 23:28:00
苹果发布mm1.5-ui模型
...了300亿参数的多模态AI大模型MM1.5,该版本是在前代MM1的架构基础上发展而来的。该模型继续遵循数据驱动的训练原则
2024-10-13 10:57:00
更多关于科技的资讯:
为夯实业务转型升级根基,切实提升普惠金融服务质效,近日,滦州农商银行举办信贷新模式及信贷产品专题培训会。该行信贷相关条线骨干
2026-01-19 17:02:00
1月18日,由城市头条有限公司主办的融媒体平台“城市头条”宣布其官方移动应用“城市头条APP”已正式在官网及各主要应用商店上线
2026-01-19 16:55:00
肥乡联社始终践行“以客户为中心”的服务理念,聚焦网点服务提质增效,不断创新服务模式、精进服务技能、丰富厅堂服务内涵,将服务触角深度延伸至城乡末梢
2026-01-19 14:55:00
1月18日,2026华杰新品盛典暨AIX大家居智能增长引擎发布会在石家庄举办。本次活动以“格物·开悟”为内核,聚焦面向核心伙伴的 "能力交付",共同探索家居行业的智造升级与增长新
2026-01-19 15:35:00
近日,中国人寿保险股份有限公司(以下简称“中国人寿”,股票代码:601628.SH,2628.HK)凭借在保险主业、社会责任
2026-01-19 15:50:00
当黄仁勋在 CES 展台上宣告物理 AI 的 “ChatGPT 时刻” 已至,屏幕这头的大学生群体瞬间分裂成两派:有人对着能精准缝合的手术机器人畅想未来
2026-01-19 15:59:00
2026年深圳网上年货节启动
中国消费者报深圳讯(记者黄劼)1月16日,2026年深圳网上年货节启动仪式在深圳市南山区京东Mall南山店成功举行。年货节以“暖冬嘉年华 年货合家欢”为主题
2026-01-19 14:17:00
鲁网1月19日讯近日,国家水利部正式发布《节水先进成熟适用技术设备名录(2025年)》。在此次国家级节水技术评选中,泰安市科技创新成果“双星闪耀”——东平力创科技有限公司与泰安市智慧能源科技有限公司的领先技术成功入选
2026-01-19 11:06:00
“智改数转”激活新动能 固安制造业向“新”力十足
河北新闻网讯(万倩、臧子祺、韩佳臻)近日,在固安县萨牌智能驱动技术(河北)有限公司的测试车间里,一台智能叉车正静默而精准地执行着指令
2026-01-19 11:06:00
光储直柔一体机亮相武汉工商学院
荆楚网(湖北日报网)讯(记者唐天琪 通讯员王蕾、蓝静)1月16日,一台可实现电力能源“自产、自储、自用、自调”的光储直柔一体机在武汉工商学院正式亮相
2026-01-19 12:01:00
江南时报讯 近日,苏州横扇中新智地产业园区1138KWp分布式光伏项目顺利并网发电。从方案落地到设备投运,吴江横扇供电所以“靠前对接
2026-01-19 13:05:00
重庆钢铁成功取得CRCC认证,正式进入铁路耐候钢市场
近日,重庆钢铁铁标耐候钢产品顺利通过中铁检验认证中心(CRCC)权威认证,标志着公司在该产品质量管理体系与实物质量上全面契合铁路行业严苛标准
2026-01-19 14:00:00
携手商家共拓增长新空间助力线下消费,抖音生活服务城市生态大会济南站启幕
鲁网1月19日讯1月16日,“域见美好生活·这一站济南”2026抖音生活服务城市生态大会暨北部大区年度盛典在济南召开。大会由山东省文化和旅游厅
2026-01-19 11:40:00
京东联合五大服饰品牌发布2025超级面料消费观察
你是否曾设想,一件衣物也能如“智能空调”般自动调节温度?你是否曾设想,穿过的羽绒服无需刻意清洗?你是否曾设想,冬日的保暖衣物能够自主发热
2026-01-19 11:07:00
潍坊国补正式落地,三联家电41周年店庆点燃消费热情
鲁网1月19日讯1月17日上午,潍坊市奎文区2026年家电以旧换新暨海尔年货节、三联家电41周年店庆启动仪式在三联家电东风店户外广场隆重举行
2026-01-19 11:03:00