• 我的订阅
  • 科技

NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构性能

类别:科技 发布时间:2024-10-22 09:57:00 来源:机器之心Pro

NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构性能

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

这篇论文刚刚中稿 NeurIPS Oral(64/15671 =0.4%),作者分别来自澳门大学、德克萨斯大学奥斯汀分校以及剑桥大学。其中,第一作者田春霖是澳门大学计算机系的三年级博士生,研究方向涉及 MLSys 和高效大语言模型。师从栗力、须成忠教授。

大型语言模型(LLMs)虽然在适应新任务方面取得了长足进步,但它们仍面临着巨大的计算资源消耗,尤其在复杂领域的表现往往不尽如人意。为了缓解这一问题,业界提出了多种参数高效微调(PEFT)方法,例如 LoRA。然而,LoRA 在面对复杂数据集时,总是难以与全参数微调的表现相媲美,尤其当任务之间充满多样性时,效果更是大打折扣。

为了突破这一瓶颈,来自澳门大学、德克萨斯大学奥斯汀分校以及剑桥大学的研究者联合提出了一种全新的非对称 LoRA 架构 —— HydraLoRA。与传统 LoRA 需要对所有任务使用相同的参数结构不同,HydraLoRA 引入了共享的 A 矩阵和多个独立的 B 矩阵,分别处理不同的任务,从而避免任务间的干扰。九头蛇(Hydra)的每个头就像 LoRA 中的 B 矩阵一样,专注于各自的特定任务,而共享的 A 矩阵则像九头蛇的身体,统一管理和协调,确保高效和一致性。无需额外工具或人为干预,HydraLoRA 能够自主识别数据中的隐含特性,极大提升了任务适应性与性能表现。借助这种多头灵活应对的机制,HydraLoRA 实现了参数效率与模型性能的双重突破。

NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构性能

论文标题:HydraLoRA: An Asymmetric LoRA Architecture for Efficient Fine-Tuning 论文链接:https://arxiv.org/pdf/2404.19245 代码链接:https://github.com/Clin0212/HydraLoRA

一句话总结:HydraLoRA 引入了一种非对称的参数微调架构,能够有效识别并适应数据中的 “内在组件”—— 即子领域或不同任务,这些组件可能难以被领域专家明确界定。其核心思想是通过共享的 A 矩阵和独立的 B 矩阵,最大限度地减少任务间的相互干扰,对每个内在组件进行优化调整。HydraLoRA 自主分配不同的 B 矩阵来捕捉特定任务的特性,而共享的 A 矩阵负责全局信息的整合,从而实现了高效的参数利用和性能提升。在复杂的多任务环境中,HydraLoRA 展现出了卓越的适应性,能够灵活处理各个内在组件,显著提升模型的准确性和效率,同时优化了资源消耗。

NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构性能

HydraLoRA 中 LoRA 架构变化示意图

研究动机与观察

LoRA 的现实困境:参数高效微调(PEFT)技术与全参数微调(FFT)之间存在显著的性能差距,尤其在处理更多样化或异质的训练语料库时,这一差距会进一步扩大。语料库的异质性意味着数据集的多样性,由于内容和风格各异,往往会引入干扰。PEFT 方法对此尤为敏感,在异构情况下性能损失更为严重。

NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构性能

LoRA 的分析观察 1:在参数数量相同的情况下,与其对整个域数据集使用单个 LoRA,不如部署多个较小的 LoRA 模块,每个模块专注于特定的下游任务。如下表所示,对于 LoRA (Split),该研究将高秩的 LoRA 模块分解为多个较小且等效的低秩组件(r×n),其中 n 表示 LoRA 的数量,r 代表每个 LoRA 的秩。这表明任务之间的干扰可能对训练过程产生负面影响。

此外,研究团队认为这种干扰并不限于显式的多任务训练场景。在任何训练设置中,这种干扰都有可能发生,因为所有数据集本质上都包含多个隐含的内在组件,例如子领域或域内的任务,这些组件甚至连领域专家也未必能够明确区分。

NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构性能

LoRA 的分析观察 2:当多个 LoRA 模块在不同数据上独立训练时,不同头的矩阵 A 参数趋于一致,而矩阵 B 的参数则明显可区分。下图展示了 LoRA 模块的分解分析,通过 t-SNE 比较。各个头部的 A 矩阵参数高度相似,导致在图中重叠。相比之下,不同头部的 B 矩阵参数则明显不同,易于区分。研究团队认为这种不对称现象主要源于 A 矩阵和 B 矩阵的初始化方式不同。A 矩阵倾向于捕捉跨领域的共性,而 B 矩阵则适应领域特定的差异。A 和 B 矩阵之间的区别为提升参数效率和有效性提供了重要见解。从效率角度来看,该研究假设 A 矩阵的参数可以在多个头部之间共享,从而减少冗余。就有效性而言,由于不同头部的 B 矩阵参数分散,说明使用单一头部来适应多个领域的效果可能不如为每个领域使用独立头部更为有效,因为这能最大程度地减少领域之间的干扰。

非对称的架构:HydraLoRA

微调阶段:HydraLoRA 无需特定的领域知识即可自适应地识别并初始化 N 个内在组件。然后,它利用一个可训练的 MoE(Mixture of Experts)路由器,将每个内在组件视为专家,自动将训练样本划分到对应的组件进行微调。

NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构性能

推理阶段:HydraLoRA 通过训练完成的路由器,灵活且动态地合并多个 B 矩阵,以满足不同任务和数据的需求。这样的设计使得模型能够高效地适应多样化的应用场景,提升了整体性能和资源利用效率。

NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构性能

实验结果

1. 整体性能

该研究使用 HydraLoRA 在单任务(通用、医学、法律、数学和代码)和多任务(Flanv2)场景下进行了全面验证。

不同微调方案在单一领域多个基准中的性能比较:

NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构性能

在 BBH 基准上跨混合任务域的不同微调方案性能比较:

NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构性能

从以上两个表格可以得出以下结论:

卓越的性能表现:HydraLoRA 在多个基准测试任务中均优于现有的 PEFT 方法,尤其在处理多任务和复杂领域时表现突出。它有效解决了传统 LoRA 在处理内在组件冲突时的劣势,在保持参数效率的同时,提供了更强大的任务处理能力。 内在组件的分离能力:通过引入多个 B 矩阵,HydraLoRA 能够有效区分数据中的内在组件,避免不同任务间的干扰。共享的 A 矩阵捕捉任务间的共性,不同的 B 矩阵处理任务的多样性,从而在多样化任务中实现更佳性能。显著提升了参数的使用效率。这种架构通过减少冗余,提升了计算和存储效率,尤其在大模型微调场景中表现突出。 可扩展性与灵活性:HydraLoRA 通过 Mixture-of-Experts (MoE) 路由器动态合并多个 B 矩阵,不仅提高了任务适应性,还能在不同任务间自如切换。该架构使模型在推理阶段灵活应对不同任务需求,在复杂多任务领域中展示了出色的扩展能力。

2. 能耗和吞吐量分析

HydraLoRA 的 “Hydra” 结构如何提高系统效率,降低训练能耗和延迟?如下图所示,该研究从训练能耗和延迟两个方面评估了 HydraLoRA 的系统效率。结果显示,HydraLoRA 在系统效率上具有显著优势。首先,HydraLoRA 通过非对称结构优化了能耗和延迟,减少了训练过程中的能源消耗和时间延迟。

NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构性能

总结

1. 本文提出了一种新的参数高效微调架构,HydraLoRA,通过共享 A 矩阵和多个独立的 B 矩阵,减少任务间的干扰并提高性能;

2. 本文挑战了单一 LoRA 结构的局限性,提出了一个通过分离内在组件来优化微调过程的框架,能够自动识别数据中的不同子任务或子领域,进一步增强了模型的适应性;

3. 无论是处理单任务还是多任务,HydraLoRA 都在不同的领域中表现优异,同时显著减少了参数量和计算资源的消耗。更令人振奋的是,HydraLoRA 的非对称架构摆脱了手动干预的需求,通过自动化的方式优化了任务间的学习过程。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-22 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

小米最强旗舰 小米16系列参数首曝:对称式双扬声器回归
...站暗示,小米16系列将会加强外围规格,该系列将会配备对称双扬声器和UWB超宽带技术,还标配3D超声波指纹和无线充,电池容量也会大幅提升
2025-05-12 10:13:00
万字技术干货!LLM工程师必读量化指南,可视化图解揭秘大模型如何压缩
...知训练(QAT)两种方法,建议有AI基础的读者直接跳转至对称量化部分:第一部分:LLM的「问题」「大语言模型」就是大在模型参数量上,规模通常达到数十亿的级别(其中主要是权重)
2024-08-01 09:38:00
Nature新研究提出新型忆阻器,比Haswell CPU高效460倍
...爱尔兰利莫瑞克大学的一篇论文,其中提出了一种「线性对称的自选择式 14 bit 的动力学分子忆阻器」。 论文标题
2024-09-18 11:44:00
AI时代CPU不老!Intel五代至强五大革新:340亿参数小意思
...大芯片,而是改为多个小芯片整合封装。四代至强分成了对称的四个部分,做到最多60核心,五代至强则变成了镜像对称的两部分,核心数反而提升到最多64个。之所以如此改变,是因为切割的
2024-03-26 05:00:00
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
...题,研究团队新的基础模型OpenCity。OpenCity结合了Transformer架构和图神经网络,用以模拟交通数据中复杂的时空依赖关系
2024-09-02 13:34:00
自研芯片三国杀,头部智驾新战场,蔚小理谁强?
...模型,理想为了解决端到端大模型可解释性差的问题,将架构升级为「端到端+VLM」,而小鹏则和特斯拉一样坚信纯视觉才是智能驾驶的终局,发布了下一代AI鹰眼纯视觉方案。但是要最大限
2024-10-11 09:53:00
旗舰全能本ROG幻16星空版16499元预约开启
...ForceRTX4070笔记本电脑GPU的强悍核心组合,并辅以冰川散热架构3.0,同时拥有光显矩阵屏与ROG星云原画屏
2023-04-18 21:21:00
超星未来梁爽:软硬件协同优化,赋能AI 2.0新时代
...部署到现有的边缘侧芯片上,主要原因包括:(1)传统架构矩阵算力缺口明显,大模型中50-80%算力需求在Attention层中的各类矩阵计算
2024-07-22 13:00:00
“技术故障”背刺巴菲特,金融大模型到底靠不靠谱?
...尔®至强®CPUMax系列处理器。这是英特尔唯一一款基于x86架构并采用高带宽内存(HBM)的CPU系列,采用了片上HBM设计
2024-06-28 23:00:00
更多关于科技的资讯:
科拓生物亮相首届精准营养大会,引领益生菌产业精准化变革
8月17-19日,中国营养学会精准营养产业分会主办的第一届精准营养产业大会在上海盛大启幕。本届大会以“创新新生态,转化新标准”为主题
2025-08-21 10:53:00
英特尔成立UQD互插互换联盟:携手五大伙伴,共筑液冷生态新未来
今日,英特尔®通用快接头(下称UQD)互插互换联盟正式成立。成立仪式上,英特尔与首批认证合作伙伴——英维克、丹佛斯、立敏达科技
2025-08-21 10:55:00
安全护航真诚相遇 珍爱网筑起坚固反诈防线为爱保驾护航
从清晨醒来手机收到的一条天气提醒,到开启旅途的一份行程规划,到工作中依赖网络开展的业务往来,再到闲暇时畅游网络世界的娱乐放松……网络已深度融入我们的日常生活与工作
2025-08-21 09:10:00
萍乡构建“返乡即就业”服务体系 已帮扶2万余人达成就业意向
本报讯 信息日报全媒体记者谢梦丽报道:8月19日,记者从萍乡市人社部门了解到,今年以来,针对返乡人员就业工作,萍乡多举措构建“返乡即就业”全周期服务体系
2025-08-21 06:19:00
8月18日,“中国醋都·清徐”陈醋系列产品包装设计大赛启动。本次大赛以“清徐陈醋 健康好醋”为主题,由清徐县醋产业发展和研究中心
2025-08-21 07:20:00
四院士“智”见AI
8月20日,第九届未来网络发展大会在南京上秦淮国际文化交流中心开幕。邬贺铨、李国杰、刘韵洁、郑庆华等专家,在会上开展深度对话
2025-08-21 07:40:00
算力可像“水电”一样便捷取用
未来网络试验设施(CENI)创新试验展台的灵犀导览机器人。紫金山实验室展台。南报网讯(记者张安琪实习生饶嘉萱)8月20日在第九届未来网络发展大会开幕式上
2025-08-21 07:42:00
全球首个!西电“玄知”密码大模型问世!
近日,西安电子科技大学计算机科学与技术学院沈玉龙教授团队在密码大模型方面取得突破性进展,研究成果以“玄知大模型”命名在西部网络安全大会上正式发布
2025-08-20 09:45:00
东方甄选股价跳水,新东方紧急声明
8月19日,东方甄选股价上演“天地板”,早盘一度暴涨逾23%,午后高台跳水,盘后跌20.89%。若以日内高点计算,追高资金在不足两小时内浮亏逾30%
2025-08-20 09:55:00
产业链上的山东好品牌|历时19年,平耐集团为全球建筑与工业装备披上“中国智造”外衣
大众网记者 刘爽 张宁 菏泽报道“作为国家级高新技术企业,平耐集团正以毫米级的品质追求和绿色智能的产业实践,为全球建筑与工业装备披上‘中国智造’的防护外衣……”平耐新材料科技(山东)有限公司(以下简称
2025-08-20 10:39:00
宇树科技发布新款人形机器人预告海报,身高180cm,拥有31个全身自由度,动作灵活且优雅
8月19日晚间,宇树科技发布新款人形机器人预告海报,配文“敬请期待”。根据官方海报显示,新款机器人有1米8大高个,拥有31个关节自由度(6*2+3+7*2+2)
2025-08-20 11:39:00
AI赋能智慧生产 固达电缆销售额上半年增长58%
固达电缆集团厂区展现出一片繁忙景象,叉车穿梭、货车满载,大型行车正将成卷电缆装车发往全国各地。据悉,今年1-6月,固达电缆销售额同比增长58%
2025-08-20 12:05:00
京东宠物上线超百款差异化爆品 确保投资回报 破局同质化内卷
当前,宠物经济持续升温,随着养宠人群年轻化、喂养理念的转变,宠物行业正从基础刚需向多元化、精细化、专业化蜕变。8月19日
2025-08-20 13:47:00
2025全球智慧教育大会|腾讯青少年AIGC创作工坊发布并启动AIGC智创少年计划
2025年8月18-20日,2025全球智慧教育大会在京举行。本次大会聚焦“人机协同催生教育新生态”,探讨新技术与教育深度融合的创新路径
2025-08-20 14:24:00
美橙回收国补遇上开学季,双重补贴引爆年轻消费市场!
——千名潮流数码玩家强势推荐伴随2025年国家第三批消费补贴全面落地,由武汉青云美橙科技服务有限公司运营的美橙回收于八月下旬推出开学季活动“国补遇上开学季
2025-08-20 14:24:00