• 我的订阅
  • 科技

挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2

类别:科技 发布时间:2024-07-23 09:39:00 来源:新智元

挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2

【新智元导读】Scaling Law还没走到尽头,「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列,规模甚至降低到了1B以下,两个版本分别只有125M和350M参数,但却实现了比更大规模模型更优的性能。

从5月和6月几家科技巨头的发布会中,我们已经能隐隐感受到AI的一个重要发展趋势:从云数据中心走向个人用户,从大型服务器走向笔记本和移动设备。

遵循Scaling Law已经不再是唯一的路径,模型「以小搏大」的故事不断上演。

先有微软更新;后有谷歌用。

硬件方面,我们看到了AI功能逐渐与电子产品进行深度集成。

比如微软臭名昭著的Recall功能,正是他们的重要组成部分;苹果也在Apple Intelligence的大旗下推出用于,力求与iOS无缝衔接。

如今LLM的参数量动辄上百亿,苹果3B的参数量已经显得十分迷你,但对手机这种移动设备来说依旧有很高门槛。

不仅用2-bit和4-bit混合精度压缩模型(平均每个权重3.5-bit),而且要有至少8G内存和M1芯片才能运行。

Meta最近发表的一篇论文就表明,参数量可以进一步收缩,最新提出的MobileLLM模型参数量小于1B,但性能依旧可观。

挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2

论文地址:https://arxiv.org/abs/2402.14905

LeCun也亲自发推为这项研究背书,称赞了其中一系列精简参数量的操作。

挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2

这篇论文已被ICML 2024接收,模型的训练代码也已经在GitHub上开源。

挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2

GitHub地址:https://github.com/facebookresearch/MobileLLM

简介

我们首先做个假设,如果把GPT-4(大约有1万亿参数)以50tokens/s的推理速度部署在生活中,你需要什么样的硬件?

答案是1亿个H100 GPU。别说是移动设备了,家里都放不下。

那如果降低标准,用LLaMA-v2 7B这样的模型,再加上8-bit量化呢?

简单计算一下,光存储模型参数就需要约7GB,但不是存储空间,而是珍贵的运存空间(DRAM)。

挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2

而且DRAM也不能被AI模型全占了,考虑到操作系统和其他应用的运行,LLM的运存占比不能超过10%。

按照图2的统计,各个品牌最近发布的移动设备一般会配备6~12GB的DRAM。这就意味着,如果要在手机上顺利部署,模型的参数量最好能降低到<1B。

不仅是运存,耗电也是一大问题。7B模型的能耗大概是0.7J/token,一个满电的iPhone大概有50kJ可供挥霍。计算下来,如果生成速度是10tokens/s,手机充满一次电只够你和模型对话2小时。

基于上述考虑,用<1B的模型部署在移动端是更理想的选择,因此MobileLLM的参数量定位在125M/350M,比苹果的3B模型还少了一个数量级,可谓「迷你中的迷你」。

但是别被Scaling Law局限,参数小不意味着能力弱,模型架构的重要性应该重新进入我们的视线。

挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2

MobileLLM不仅在同等大小的模型中达到了SOTA性能,而且提出,架构的深度比宽度更重要。一个「深而窄」的「瘦长」小模型同样可以学习到抽象概念。

架构与方法

在只有125M/350M参数的情况下,如何在有限范围内实现架构设计的最优化就成为了重要的问题。

对于<1B的LLM,作者探索出了4种行之有效的架构设计技巧。

1)使用SwiGLU前馈网络

2)让网络整体形状变得「狭长」,即深而窄

3)重新使用编码共享(embedding sharing)方法

4)使用组查询注意力机制(grouped query attention)

挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2

在此基础上,作者还提出了一种块间层共享(block-wise layer-sharing)方法,能够在不引入额外内存开销的情况下进一步提高模型准确率,但代价是增加解码过程的推理延迟。

这种添加了层共享机制的模型被标记为MobileLLM-LS。

反驳Scaling Law:小模型的架构设计很重要

2020年提出Scaling Law的论文认为,训练数据量、参数量以及训练迭代次数才是决定性能的关键因素,而模型架构的影响几乎可以忽视。

然而这篇论文的作者通过对比实验提出,这个定律对小模型并不适用。

当模型参数固定在125M或者350M时,30~42层的「狭长」模型明显比12层左右的「矮胖」模型有更优越的性能(图4),在常识推理、问答、阅读理解等8个基准测试上都有类似的趋势。

挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2

这其实是非常有趣的发现,因为以往为125M量级的小模型设计架构时,一般都不会叠加超过12层。

为什么要重拾「编码共享」

「编码共享」(embedding sharing)方法最开始由OPT这样的小模型提出,因为小模型中编码层的参数占到了相当大的比例。

比如,125M模型中要使用上下文长度32k、维度512的编码,输入和输出编码层就包含了16M的参数,占比达到20%。

相较之下,大模型的编码层参数量显得微不足道。比如LLaMA-7B中,这个比例就下降到了3.7%,LLaMA-70B甚至只有0.7%。因此,共享编码对于LLM来说可有可无。

编码共享在大模型时代的过气,不代表这种技术不再适用于小模型,它可以让模型架构更紧凑、更有效率。

如表1所示,进行编码共享后,模型在总参数量降低16M的情况下依旧总体维持了原有性能,甚至在某些基准上有提升。

挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2

层共享机制

之前提到,论文的实验结果发现,让小模型变得「瘦长」有利于性能提升。于是作者想到:如果引入层共享机制,不就相当于保持参数总量不变的同时,增加了模型深度。

实验证明,这种方法的确可以提升性能,而且论文还对比了不同的层共享方法(图6),最终权衡设备内存、性能和推理延迟,选择了即时块间层共享(immediate block-wise sharing,图6b)。

挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2

评估实验

作者构建了125M和350M参数的MobileLLM/MobileLLM-LS模型,并在1T的数据集上进行训练。

预训练后的模型在多个数据集上进行零样本测试,包括ARC-easy、ARCchallenge、HellaSwag、 WinoGrande、TQA、RACE等常用基准。

表3展示的是零样本常识推理方面的测评结果,MobileLLM系列基本实现了全面SOTA,不仅能超越之前发布的OPT、BLOOM等经典模型,也优于最近发布的GPT-neo、Galactica、RWKV等参数更大的模型。

挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2

在问答和阅读理解方面,MobileLLM依旧表现出色(表4)。相比其他模型,125M和325M的MobileLLM在TQA上分别有>6.4分和约10分的提升。

下游任务

除了在基准测试上跑分,论文还考虑到了应用场景部署时对模型多方面的要求,并进行了相应测评。

AlpacaEval和MT-Bench分别测试模型在单轮和多轮聊天任务中的表现,相比其他3个基线模型,MobileLLM依旧是性能最优,而且甚至能用350M的参数超过其他参数>1B模型的表现。

挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2

除了对话,在API调用的场景中,MobileLLM的EM分数可以和7B参数的LLaMA-v2相匹配。

挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2

此外,MobileLLM与量化(PTQ)的兼容性也很好。经过W8A8量化后,模型的性能只有不到0.5分的下降,并且依旧与层共享机制兼容,因此可以适应更严苛硬件条件下的部署。

挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2

作者简介

本文的通讯作者Zechun Liu是Meta Reality Labs的研究科学家。她本科毕业于复旦大学,博士毕业于香港科技大学,加入Meta前曾有两年多的时间在CMU担任访问学者。

挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2

Zechun的研究兴趣是深度学习在现实场景中的应用,例如资源不足的限制、计算资源和精度之间的权衡等,其中重点关注网络二值化和量化、网络通道剪枝、架构设计、知识蒸馏等方面。

参考资料:

https://x.com/ylecun/status/1810035281472491665

https://arxiv.org/abs/2402.14905

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-23 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

掰开安卓手机 满屏都是三个字:大模型
这年头,安卓厂商没个大模型,都不敢开手机发布会了。前脚OPPO刚用大模型升级了语音助手,后脚vivo就官宣自研手机AI大模型;小米发布会则直接将大模型当场塞进手机系统……其竞争激
2023-11-16 20:30:00
高通打响围攻英特尔的第一枪
...升 25%,目前骁龙 8Gen 3 已支持运行 100 亿参数的生成式 AI 模型。如果使用搭载 8Gen 3 平台的智能手机运行 Stable Diffusion
2023-10-26 18:02:00
高通骁龙:端侧AI 启幕移动智能“芯”时代
...界面里看到的那些“AI”还不太一样,今年的AI专指“AI大模型”这个随ChatGPT火到已经泛滥的概念,是一种基于生成式AI技术的大语言/大视觉模型,主要用于图文相关的自然语
2023-12-01 15:58:00
MediaTek发布天玑9300旗舰5G生成式AI 移动芯片,开启全大核计算时代
...可实现更加高速且安全的边缘AI计算,深度适配Transformer模型进行算子加速,处理速度是上一代的8倍,1秒内可生成图片
2023-11-07 13:58:00
最强安卓SoC!联发科天玑9300正式发布
...可实现更加高速且安全的边缘AI计算,深度适配Transformer模型进行算子加速,处理速度是上一代的8倍,1秒内可生成图片
2023-11-06 20:34:00
​全大核天玑9300登场!实测性能、能效兼优站稳旗舰!
...备行业首款内存硬件压缩技术NeuroPilot Compression,能让大模型的内存占用大幅降低,从而使用生成式AI应用更加流畅
2023-11-07 15:32:00
stabilityai推stablelm3b语言模型
...bilityAI昨日发布公告,介绍了旗下一款名为StableLM3B的语言模型,号称适用于移动平台设备,“可为相关设备带来可持续
2023-10-04 03:55:00
华为AI存储助力中国移动构建超大规模智算集群
...转自:人民日报《人民日报》(2024年12月19日第 18 版)大模型领域普遍存在规模化定律,即大模型的性能深受模型参数量、数据集大小以及训练算力规模三要素的影响。生成式AI
2024-12-19 18:16:00
oppo首个端侧应用70亿参数大模型findx7系列
...的首个听筒/免提双模卫星通话,首个端侧应用70亿参数大模型,首次亮相的潮汐架构等诸多前沿技术。此次宣布的全新技术组合将全面落地下一代旗舰产品FindX7系列,为2024年旗舰
2023-12-28 10:13:00
更多关于科技的资讯:
《视野》杂志启动AI协作创作大赛
中国青年报客户端讯(中青报·中青网记者 马富春)2月13日,《视野》杂志“人类文明备忘录”AI协作创作大赛正式启动。活动以直播+实时互动形式展开
2026-02-14 20:52:00
新春走基层丨76秒,一套汽车零部件焊接就能下线
见习记者 朱荣琛2月12日,农历腊月廿五。春节临近,廊坊经开区道路两旁挂上了大红灯笼,沿街企业的大门已贴上了大对联。热热闹闹的年味儿在这个城市的大街小巷悄然弥漫
2026-02-14 22:12:00
针对春节期间服务需求,中国银行隆尧支行近日聚焦自助服务渠道,启动了专项保障工作。针对县域网点分布广、运维半径长的特点,隆尧支行依托历史运行数据
2026-02-14 22:17:00
领航新质生产力——2025浙江省科学企业家这个专题,是省科协和潮新闻联合举办的,已陆续推出了近二十位具有科技创新精神的浙商企业家
2026-02-14 22:34:00
深圳地铁陪你「返屋企」,跨场景互动刷新通勤与春运体验
近日,深圳地铁迎来了新春限定数字人,结合AI原创音乐与互动体验,走到了春运最前沿。这是深圳地铁数字IP首次以完整的互动形态沉浸式接入城市公共空间
2026-02-14 20:26:00
2月14日消息,2026年“新春招聘月”系列活动将于2月24日(正月初八)在五一广场太原人才大市场(迎泽区零工示范站)正式启幕
2026-02-14 17:37:00
星火空间完成数千万天使+轮融资 核心产品“进化一号”发动机完成首次试车
大皖新闻讯 此前关于合肥要造火箭的消息引发外界广泛关注,背后则是合肥星火空间科技有限公司(以下简称“星火空间”)落户合肥新站高新区
2026-02-14 18:45:00
国医大师李佃贵为2026雄安国际医疗大健康技术应用大赛发声推介。他表示,当下是中西医并重、传统智慧与现代科技深度融合的时代,中医核心思想与大健康领域发展目标高度契合,期待中医药领
2026-02-14 19:13:00
中国科大取得重要突破 首次实现量子李雅普诺夫指数的精确提取
大皖新闻讯 ”这一结果意义重大,为观测混沌的量子世界提供了全新视角。”相关人员如此评价说。2月14日,大皖新闻记者从中国科学技术大学获悉
2026-02-14 17:35:00
鲁网2月14日讯为提升居民网络使用体验,助力智慧社区建设,近日,山东移动临沂分公司装维团队深入多个社区,开展 “移动装维进社区”专项服务活动
2026-02-14 15:10:00
山东移动临沂分公司:智慧装维服务升级,开启家庭网络新体验
鲁网2月14日讯“您好,我是中国移动装维工程师张师傅,现在上门为您检测网络,这是我的工作证件。”周六上午9点,临沂北城新区书香苑小区的王女士刚结束早间会议
2026-02-14 15:11:00
字节跳动发布豆包大模型2.0,主打真实世界复杂任务执行力
在连续发布Seedance 2.0视频模型、Seedream 5.0 Lite图像模型之后,2月14日,字节跳动宣布推出豆包大模型2
2026-02-14 15:35:00
从米兰冬奥会看全球消费趋势:为何“由你”成了2026年的新叙事?
过去十年,全球化品牌的策略多为“We are the best”,强调品牌的权威感。但现在的趋势是“Its your turn”
2026-02-14 16:20:00
千问大免单再加3天,邀请全国人民体验AI买电影票,激活春节AI新消费
2月14日,千问突然宣布免单再加3天,接入大麦、飞猪,邀请全国人民体验AI买电影票、门票等新功能,激活春节AI新消费。从今天下午3点到大年初一
2026-02-14 16:36:00
依据河北省消费者权益保护委员会联合北京阳光消费大数据研究院于2025年8月发布的智能坐便器比较试验结果,九牧送检样品(型号ZD9640-SA-CJM000
2026-02-14 15:10:00