我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

挑战Scaling Law，Meta发布移动端350M小模型MobileLLM，性能比肩7B LLaMA-v2

类别：科技发布时间：2024-07-23 09:39:00 来源：新智元

【新智元导读】Scaling Law还没走到尽头，「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列，规模甚至降低到了1B以下，两个版本分别只有125M和350M参数，但却实现了比更大规模模型更优的性能。

从5月和6月几家科技巨头的发布会中，我们已经能隐隐感受到AI的一个重要发展趋势：从云数据中心走向个人用户，从大型服务器走向笔记本和移动设备。

遵循Scaling Law已经不再是唯一的路径，模型「以小搏大」的故事不断上演。

先有微软更新；后有谷歌用。

硬件方面，我们看到了AI功能逐渐与电子产品进行深度集成。

比如微软臭名昭著的Recall功能，正是他们的重要组成部分；苹果也在Apple Intelligence的大旗下推出用于，力求与iOS无缝衔接。

如今LLM的参数量动辄上百亿，苹果3B的参数量已经显得十分迷你，但对手机这种移动设备来说依旧有很高门槛。

不仅用2-bit和4-bit混合精度压缩模型（平均每个权重3.5-bit），而且要有至少8G内存和M1芯片才能运行。

Meta最近发表的一篇论文就表明，参数量可以进一步收缩，最新提出的MobileLLM模型参数量小于1B，但性能依旧可观。

论文地址：https://arxiv.org/abs/2402.14905

LeCun也亲自发推为这项研究背书，称赞了其中一系列精简参数量的操作。

这篇论文已被ICML 2024接收，模型的训练代码也已经在GitHub上开源。

GitHub地址：https://github.com/facebookresearch/MobileLLM

简介

我们首先做个假设，如果把GPT-4（大约有1万亿参数）以50tokens/s的推理速度部署在生活中，你需要什么样的硬件？

答案是1亿个H100 GPU。别说是移动设备了，家里都放不下。

那如果降低标准，用LLaMA-v2 7B这样的模型，再加上8-bit量化呢？

简单计算一下，光存储模型参数就需要约7GB，但不是存储空间，而是珍贵的运存空间（DRAM）。

而且DRAM也不能被AI模型全占了，考虑到操作系统和其他应用的运行，LLM的运存占比不能超过10%。

按照图2的统计，各个品牌最近发布的移动设备一般会配备6～12GB的DRAM。这就意味着，如果要在手机上顺利部署，模型的参数量最好能降低到<1B。

不仅是运存，耗电也是一大问题。7B模型的能耗大概是0.7J/token，一个满电的iPhone大概有50kJ可供挥霍。计算下来，如果生成速度是10tokens/s，手机充满一次电只够你和模型对话2小时。

基于上述考虑，用<1B的模型部署在移动端是更理想的选择，因此MobileLLM的参数量定位在125M/350M，比苹果的3B模型还少了一个数量级，可谓「迷你中的迷你」。

但是别被Scaling Law局限，参数小不意味着能力弱，模型架构的重要性应该重新进入我们的视线。

MobileLLM不仅在同等大小的模型中达到了SOTA性能，而且提出，架构的深度比宽度更重要。一个「深而窄」的「瘦长」小模型同样可以学习到抽象概念。

架构与方法

在只有125M/350M参数的情况下，如何在有限范围内实现架构设计的最优化就成为了重要的问题。

对于<1B的LLM，作者探索出了4种行之有效的架构设计技巧。

1)使用SwiGLU前馈网络

2)让网络整体形状变得「狭长」，即深而窄

3)重新使用编码共享（embedding sharing）方法

4)使用组查询注意力机制（grouped query attention）

在此基础上，作者还提出了一种块间层共享（block-wise layer-sharing）方法，能够在不引入额外内存开销的情况下进一步提高模型准确率，但代价是增加解码过程的推理延迟。

这种添加了层共享机制的模型被标记为MobileLLM-LS。

反驳Scaling Law：小模型的架构设计很重要

2020年提出Scaling Law的论文认为，训练数据量、参数量以及训练迭代次数才是决定性能的关键因素，而模型架构的影响几乎可以忽视。

然而这篇论文的作者通过对比实验提出，这个定律对小模型并不适用。

当模型参数固定在125M或者350M时，30～42层的「狭长」模型明显比12层左右的「矮胖」模型有更优越的性能（图4），在常识推理、问答、阅读理解等8个基准测试上都有类似的趋势。

这其实是非常有趣的发现，因为以往为125M量级的小模型设计架构时，一般都不会叠加超过12层。

为什么要重拾「编码共享」

「编码共享」（embedding sharing）方法最开始由OPT这样的小模型提出，因为小模型中编码层的参数占到了相当大的比例。

比如，125M模型中要使用上下文长度32k、维度512的编码，输入和输出编码层就包含了16M的参数，占比达到20%。

相较之下，大模型的编码层参数量显得微不足道。比如LLaMA-7B中，这个比例就下降到了3.7%，LLaMA-70B甚至只有0.7%。因此，共享编码对于LLM来说可有可无。

编码共享在大模型时代的过气，不代表这种技术不再适用于小模型，它可以让模型架构更紧凑、更有效率。

如表1所示，进行编码共享后，模型在总参数量降低16M的情况下依旧总体维持了原有性能，甚至在某些基准上有提升。

层共享机制

之前提到，论文的实验结果发现，让小模型变得「瘦长」有利于性能提升。于是作者想到：如果引入层共享机制，不就相当于保持参数总量不变的同时，增加了模型深度。

实验证明，这种方法的确可以提升性能，而且论文还对比了不同的层共享方法（图6），最终权衡设备内存、性能和推理延迟，选择了即时块间层共享（immediate block-wise sharing，图6b）。

评估实验

作者构建了125M和350M参数的MobileLLM/MobileLLM-LS模型，并在1T的数据集上进行训练。

预训练后的模型在多个数据集上进行零样本测试，包括ARC-easy、ARCchallenge、HellaSwag、 WinoGrande、TQA、RACE等常用基准。

表3展示的是零样本常识推理方面的测评结果，MobileLLM系列基本实现了全面SOTA，不仅能超越之前发布的OPT、BLOOM等经典模型，也优于最近发布的GPT-neo、Galactica、RWKV等参数更大的模型。

在问答和阅读理解方面，MobileLLM依旧表现出色（表4）。相比其他模型，125M和325M的MobileLLM在TQA上分别有>6.4分和约10分的提升。

下游任务

除了在基准测试上跑分，论文还考虑到了应用场景部署时对模型多方面的要求，并进行了相应测评。

AlpacaEval和MT-Bench分别测试模型在单轮和多轮聊天任务中的表现，相比其他3个基线模型，MobileLLM依旧是性能最优，而且甚至能用350M的参数超过其他参数>1B模型的表现。

除了对话，在API调用的场景中，MobileLLM的EM分数可以和7B参数的LLaMA-v2相匹配。

此外，MobileLLM与量化（PTQ）的兼容性也很好。经过W8A8量化后，模型的性能只有不到0.5分的下降，并且依旧与层共享机制兼容，因此可以适应更严苛硬件条件下的部署。

作者简介

本文的通讯作者Zechun Liu是Meta Reality Labs的研究科学家。她本科毕业于复旦大学，博士毕业于香港科技大学，加入Meta前曾有两年多的时间在CMU担任访问学者。

Zechun的研究兴趣是深度学习在现实场景中的应用，例如资源不足的限制、计算资源和精度之间的权衡等，其中重点关注网络二值化和量化、网络通道剪枝、架构设计、知识蒸馏等方面。

参考资料：

https://x.com/ylecun/status/1810035281472491665

https://arxiv.org/abs/2402.14905

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-07-23 12:45:01

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于模型,性能,移动,模型,参数,架构的资讯：

掰开安卓手机满屏都是三个字：大模型

这年头，安卓厂商没个大模型，都不敢开手机发布会了。前脚OPPO刚用大模型升级了语音助手，后脚vivo就官宣自研手机AI大模型；小米发布会则直接将大模型当场塞进手机系统……其竞争激

2023-11-16 20:30:00

高通打响围攻英特尔的第一枪

...升 25%，目前骁龙 8Gen 3 已支持运行 100 亿参数的生成式 AI 模型。如果使用搭载 8Gen 3 平台的智能手机运行 Stable Diffusion

2023-10-26 18:02:00

高通骁龙：端侧AI 启幕移动智能“芯”时代

...界面里看到的那些“AI”还不太一样，今年的AI专指“AI大模型”这个随ChatGPT火到已经泛滥的概念，是一种基于生成式AI技术的大语言/大视觉模型，主要用于图文相关的自然语

2023-12-01 15:58:00

MediaTek发布天玑9300旗舰5G生成式AI 移动芯片

...可实现更加高速且安全的边缘AI计算，深度适配Transformer模型进行算子加速，处理速度是上一代的8倍，1秒内可生成图片

2023-11-07 13:58:00

最强安卓SoC！联发科天玑9300正式发布

...可实现更加高速且安全的边缘AI计算，深度适配Transformer模型进行算子加速，处理速度是上一代的8倍，1秒内可生成图片

2023-11-06 20:34:00

全大核天玑9300登场！实测性能、能效兼优站稳旗舰！

...备行业首款内存硬件压缩技术NeuroPilot Compression，能让大模型的内存占用大幅降低，从而使用生成式AI应用更加流畅

2023-11-07 15:32:00

stabilityai推stablelm3b语言模型

...bilityAI昨日发布公告，介绍了旗下一款名为StableLM3B的语言模型，号称适用于移动平台设备，“可为相关设备带来可持续

2023-10-04 03:55:00

华为AI存储助力中国移动构建超大规模智算集群

...转自：人民日报《人民日报》（2024年12月19日第 18 版）大模型领域普遍存在规模化定律，即大模型的性能深受模型参数量、数据集大小以及训练算力规模三要素的影响。生成式AI

2024-12-19 18:16:00

oppo首个端侧应用70亿参数大模型findx7系列

...的首个听筒/免提双模卫星通话，首个端侧应用70亿参数大模型，首次亮相的潮汐架构等诸多前沿技术。此次宣布的全新技术组合将全面落地下一代旗舰产品FindX7系列，为2024年旗舰

2023-12-28 10:13:00

更多关于科技的资讯：

山西两位女企业家登上福布斯中国杰出商界女性榜

3月9日，2026福布斯中国杰出商界女性100榜单发布，山西美锦能源股份有限公司董事、首席ESG官、氢能与可持续发展部总经理姚锦丽

2026-03-12 20:32:00

行舟清淤，一键搞定！西湖“黑科技”清淤船上线！

2026-03-12 22:49:00

新沂农商银行：精耕场景生态，深化零售转型

江南时报讯在数字化浪潮与客户需求多元化的时代，零售金融服务的核心正从单一产品交付转向深度场景融合与客群精细化运营。新沂农商银行始终坚持以客户为中心

2026-03-13 03:28:00

多地优化公积金提取政策专家指出四大改革方向｜宅男财经

【宅男财经｜专家面对面】近日，多地发布住房公积金制度新政，有城市支持用于住房改造、租房、重大疾病提取，有城市支持用于住房

2026-03-12 17:43:00

福州打造无人车应用新赛道聚焦打通服务民生“最后一公里”

无人驾驶运载机器人可便捷实现“最后一公里”投送。福州新闻网3月12日讯（记者朱丽萍/文包华/摄）今后，您的审批文件将实现“无人接力”

2026-03-12 18:08:00

2026数字中国创新大赛·信创赛道全面启动

福州新闻网3月11日讯（记者颜澜萍）近日，2026数字中国创新大赛·信创赛道全面启动报名工作。赛道紧密围绕信息技术应用创新国家战略

2026-03-12 18:09:00

连云港海州区：首批人工智能应用场景机会清单发布

为深入激活人工智能OPC创新模式活力，推动数字技术与实体经济深度融合，海州区正式发布首批人工智能OPC社区应用场景机会清单

2026-03-12 18:22:00

国家工业信息安全发展研究中心发布工业领域OpenClaw应用

中国网3月12日讯据“国家工业信息安全发展研究中心”微信公众号消息，3月12日，国家工业信息安全发展研究中心发布关于工业领域OpenClaw应用的风险预警通报

2026-03-12 20:04:00

智标未来，数启AI，闽清等你来！2026数字中国数据标注赛道

福州新闻网3月10日讯（记者谭湘竹）3月10日，2026数字中国创新大赛全新增设的数据标注赛道，面向全国各类创新主体开启报名

2026-03-12 18:09:00

平安人寿山东分公司：智慧服务无障碍人工服务有保障

鲁网3月12日讯随着数字金融深入民生，智能化、线上化已成为金融服务的主流趋势。在推动数字化升级的同时，公司始终坚守“金融为民”初心

2026-03-12 18:04:00

梨花声音教育：用专业与温度，解锁声音的无限可能

在声音经济崛起与全民素养提升的浪潮中，越来越多人渴望通过专业训练改善发音、解锁声音价值，梨花声音教育作为十方融海旗下核心品牌

2026-03-12 14:41:00

连接中国读者与世界文化京东图书携精选书目亮相2026年伦敦

3月10日至12日，2026年伦敦书展于奥林匹亚展览中心举行，京东图书携手京东全球售精选优质书目亮相这一全球出版业春季盛会

2026-03-12 15:10:00

宁阳县第一人民医院脑电生物反馈治疗：为大脑做科学的“放松训练

鲁网3月12日讯在快节奏的现代生活中，人们常常需要同时处理多项任务，承受各种压力，可能会出现注意力不集中、失眠等情况，严重者甚至引发头痛

2026-03-12 15:38:00

“找春天”为主题 CHIC2026（春季）在沪开幕

以“找春天”为主题的CHIC2026（春季）3月11日在沪启幕。作为中国服装产业的风向标与晴雨表，本届展会在117,200㎡展呈空间内

2026-03-12 15:53:00

上饶银行鄱阳支行以“赣质贷”助力科技小微企业跑出创新发展“加

.wordContentCss_17732994133111{ font-family:宋体; font-size:14pt

2026-03-12 16:02:00

头条订阅服务

挑战Scaling Law，Meta发布移动端350M小模型MobileLLM，性能比肩7B LLaMA-v2