• 我的订阅
  • 科技

1行代码改进大模型训练,Llama训练速度升至1.47倍,华人团队出品

类别:科技 发布时间:2024-11-28 09:58:00 来源:量子位

只要改一行代码,就能让大模型训练效率提升至1.47倍。

1行代码改进大模型训练,Llama训练速度升至1.47倍,华人团队出品

拥有得州大学奥斯汀分校背景四名华人学者,提出了大模型训练优化器Cautious Optimizers。

在提速的同时,Cautious能够保证训练效果不出现损失,而且语言和视觉模型都适用。

1行代码改进大模型训练,Llama训练速度升至1.47倍,华人团队出品

该优化器以哈密顿量和下降动力学为理论基础,在加速的同时不影响收敛特性。

作者在600M到1B不同参数规模的Llama模型上进行了试验,获得了最高47%的加速率。

该研究相关代码已经开源,在GitHub上有使用方法的详细讲解。

1行代码改进大模型训练,Llama训练速度升至1.47倍,华人团队出品

一行代码改进大模型训练

Cautious Optimizers在PyTorch当中增加的一行代码,核心思路是引入实现一种掩蔽机制,从而避免参数更新的方向与当前梯度方向相悖。

1行代码改进大模型训练,Llama训练速度升至1.47倍,华人团队出品

因为这两个方向一旦不一致,就有可能导致损失函数暂时增加,造成收敛速度的减缓。

不过作者并未在方向不一致的来源问题上过度纠结,而是引入了一种判断机制,在参数更新之前增加一步计算,从而过滤掉方向不一致的情形。

这也正是上面代码的直接作用。

1行代码改进大模型训练,Llama训练速度升至1.47倍,华人团队出品

△GD:梯度下降,GDM:带动量的梯度下降,C-GDM:本项目

具体来说,加入的两行代会对u和g两个向量求内积,u向量对应优化器给出的参数更新方向,而g向量对应当前时刻的梯度方向。

作者设计了一个对齐掩码函数ϕ,当u和g的内积小于0时(即方向不一致),ϕ的输出为0向量;当内积大于等于0时,ϕ的输出为全1向量。

而一旦ϕ为零向量时,w_t计算式中含u的项也会变为零向量,导致此项更新被跳过。

1行代码改进大模型训练,Llama训练速度升至1.47倍,华人团队出品

这样就可以判断参数更新和梯度方向是否一致,如果不一致则不会用于参数更新,避免了训练过程中损失函数的回升。

训练效率提升47%

为了评估Cautious Optimizers的具体效果,作者分别在语言模型Llama和视觉模型MAE上进行了试验。

作者选取了60M、100M、350M和1B四种参数规模的Llama模型,在C4语料库上进行预训练。

优化器选用了AdamW和Lion,以及它们对应的Cautious版本:C-AdamW和C-Lion,每个实验中进行1万步迭代。

结果C-AdamW和C-Lion在所有规模上都表现出明显的收敛加速效果。

尤其是在1B规模上,相比原版的AdamW和Lion,它们的样本效率分别提高了47%和28%,这表明Cautious Optimizer能有效减少训练震荡,使收敛更平稳高效。

1行代码改进大模型训练,Llama训练速度升至1.47倍,华人团队出品

并且,Cautious Optimizer在所有情况下都取得了更低的困惑度,印证了其出色的泛化性能。

1行代码改进大模型训练,Llama训练速度升至1.47倍,华人团队出品

为了评估模型的实际效果,研究者在语句匹配、文本蕴含、情感分类等6个GLUE下游任务上测试了AdamW和C-AdamW优化后1B模型的表现,

结果表明,C-AdamW的平均得分比AdamW高出2%,在大多数任务上都取得了进步,说明Cautious跳过部分参数更新的方式不会引起模型性能下降。

1行代码改进大模型训练,Llama训练速度升至1.47倍,华人团队出品

对于视觉模型,作者以ViT为骨干网络,在ImageNet-1K数据集上预训练了MAE模型。

由于视觉任务的特殊性,训练过程采用了随机遮挡图像块并重建的范式,因此优化目标是最小化重建误差,而非通常的分类损失。

作者对比了AdamW和C-AdamW的表现,即训练50轮后的最终重建误差,结果C-AdamW的误差为0.5926,低于AdamW的0.6085。

1行代码改进大模型训练,Llama训练速度升至1.47倍,华人团队出品

一作曾在一周内复刻o1

本项目是由四名华人学者共同打造的。

第一作者Kaizhao Liang,是AI推理加速服务商SambaNova公司的一名高级ML工程师。

在o1模型发布一周内,该公司就推出了一个类似o1模型思考过程的开源平替,主要作者正是Liang。

1行代码改进大模型训练,Llama训练速度升至1.47倍,华人团队出品

其他三名作者是得州大学奥斯汀分校CS助理教授Qiang Liu,以及他的两名博士生,Lizhang Chen和Bo Liu。

此外,Liang的人工智能硕士学位也是从该校获得。

论文地址:https://arxiv.org/abs/2411.16085GitHub:https://github.com/kyleliang919/C-Optim

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-28 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
...发团队还发布了Time-300B数据集,为时序分析提供了丰富的训练资源,为各行各业的时间序列预测任务带来了新的解决方案。在当今以数据为驱动的时代,时序预测已成为众多领域不可或
2024-10-23 09:55:00
全球首位AI程序员爆火,背后公司成立仅4个月,CEO才27岁
...我们接下来就来一探究竟。自主写代码,Debug还能“自己训练自己”首先,这位AI程序员长什么样?在演示视频中,Devin最开始拥有一个左右窗口并列的布局:左边是当前大语言模型
2024-03-15 09:21:00
最强AI程序员砸饭碗:84秒跑通代码 像人一样思考
...自我对弈、逐步验证等方法,还用到了基于大量标记数据训练的AI模型。好处是,当基础模型能力提升时,它们能够提取的数据质量也会相应提高。最终Genie使用该专有数据进行训练。数据
2024-08-13 14:46:00
炒菜、做家务的开源机器人来了,斯坦福华人开发、Transformer 架构驱动、造价 3.2 万美元
...是一种用于双手遥控操作的低成本开源硬件系统,解决了训练需要人类操作员仔细指导的移动双手机器人的高成本和技术挑战。值得一提的是,Mobile Aloha 能实现以上操作,并非完
2024-01-06 20:00:00
国内团队新发大模型:ceo上阵写代码
...源的最大规模大语言模型。此外,团队还一并开源100G预训练数据、监督微调1G或100万条数据。基于TigerBot
2023-06-07 21:01:00
将偏好学习引入模型训练,北大李戈团队提出代码生成优化新框架
...习的问题有解了。北大李戈教授团队与字节合作,在模型训练过程中引入偏好学习,提出了一个全新的代码生成优化框架——CodeDPO
2024-11-28 09:57:00
百度文心大模型4.0技术进展
...文心一言从数万亿数据和数千亿知识中融合学习,得到预训练大模型,在此基础上采用有监督精调、人类反馈强化学习、提示等技术,具备知识增强、检索增强和对话增强的技术优势。文心一言的基
2023-10-18 04:20:00
惊掉下巴!被字节起诉800万实习生,拿下NeurIPS 2024最佳论文
【新智元导读】太戏剧了!攻击字节训练集群的实习生,居然刚刚获得了NeurIPS 2024最佳论文奖?虽然看起来像爽文剧情,但这位高材生接下来的路,应该是难走了。刚刚,恶意攻击字节
2024-12-05 09:47:00
「虎博科技」发布自研多模态大模型TigerBot,开源模型、代码及数据 | 36氪首发
...衡事实性和创造性。”陈烨补充。这样的结果是,机器在训练模型中算力和数据的消耗,会比同等档次模型要小。 针对中文语境,虎博科技从分词器(Tokenizer)到训练算法等方面做
2023-06-07 13:04:00
更多关于科技的资讯:
不是不想买,是不会用!老年人买保险“数字鸿沟”谁来填?
“我爸今年60岁了,以前对保险没什么概念,这几年随着年龄增长、身体每况愈下,他开始意识到保障的重要性,可投保时犯了难,手机APP字太小
2025-08-22 08:08:00
●黄开典这个暑期,厦门文旅市场热度持续攀升。周杰伦、陈小春等歌手演唱会,乒超联赛等体育赛事陆续“登鹭”,一场场文体盛宴吸引全国各地的观众奔赴而来
2025-08-22 08:47:00
厦门网讯 (厦门日报记者 林露虹)国产钨钢钻头实现重大突破。近日,厦门麦达智能科技有限公司宣布,成功生产出直径仅0.009毫米(9微米)的钨钢钻头
2025-08-22 08:47:00
厦门网讯(厦门日报记者 陈泥)近日,市财政局联合市住房和建设局创新资产推介模式,首次在阿里巴巴资产交易和京东拍卖平台开展资产线上招商推介活动
2025-08-22 08:47:00
近日,中电鑫龙子公司安徽森源电器有限公司(以下简称“安徽森源”)再次凭借优质的产品性能与卓越的服务品质,签约河北瑞丰钢铁集团有限公司(以下简称 “瑞丰钢铁”)“145MW超临界煤气发电”及“170万吨焙烧机”两大关键工程
2025-08-22 09:13:00
现场网络流量激增167%!济宁移动全力保障“山东虾味鲜争霸赛”
大众网记者 刘迪 通讯员 吴广森 济宁报道8月14日至17日,“好客山东・美食争霸赛”第三场单品赛——“虾”路相逢・山东虾味鲜争霸赛在济宁市任城区津多里中心广场举办
2025-08-22 09:16:00
面对国内高端搬家市场日益增长的精细化服务需求,互联网搬家平台“蓝犀牛搬家”于近日宣布,对旗下的日式搬家服务进行重大升级
2025-08-22 09:19:00
新华社《半月谈》聚焦视源机器人:能巡逻、能巡检,四足机器狗已走进日常工作生活
你能想象一只机器狗在步行街巡逻、在变电站巡检、甚至还能帮你“上课”吗?这一切正在成为现实。近日,新华社《半月谈》专访视源股份高层段宇
2025-08-22 09:19:00
菏泽联通客户日:线上线下齐发力,暖心服务获赞无数
齐鲁晚报·齐鲁壹点 宋秋梅 通讯员 陈芳8月 19 日,菏泽联通客户日线下活动再度启程,10 个旗舰厅同步开展,通过提前邀约意向客户
2025-08-22 09:36:00
全省首次应用!十堰布设颗粒物通量激光雷达为空气做“CT扫描”
十堰广电讯(全媒体记者 赵向军 通讯员 叶相成 朱陈沁子)日前,在十堰市张湾区某小区楼顶,市生态环境局布设的一套球形三维扫描颗粒物通量激光雷达
2025-08-22 11:24:00
在方寸电站间磨砺出创新之刃
消费日报网讯(记者 冯举)在攀钢钒能源动力分公司热动专业区发电站,55MW发电机组冷风器冷油器在线反洗及串级节能操作法的成功应用
2025-08-22 11:44:00
从“谷子”到“痛金” IP赋能黄金产业年轻化发展
本报记者 卢 岳 □ 王琦琛根据世界黄金协会数据,2024年中国18岁至34岁消费者已成为黄金首饰消费的主力军。随着年轻人对黄金兴趣回归
2025-08-22 11:44:00
“演唱会+城市”叠加效应激发粉丝经济新活力
本报记者 卢 岳 □ 王琦琛今年夏天,北京仿佛化身为一座名为“MaydayLand”的城市主题公园。五月天“回到那一天”25周年巡回演唱会在鸟巢连开13场
2025-08-22 11:44:00
2025 年 7 月 21 日,聚焦计量检验检测一体化服务的数字化平台 —— 三测计量检测服务平台正式上线运营,该平台由深圳镎普检验技术有限公司主办
2025-08-22 12:21:00
为提振车市消费信心、助推中国汽车品牌向上,汽车之家倾力打造“818全球购车节”活动,树立汽车行业多方协同赋能生态的营销新范式
2025-08-22 14:02:00