• 我的订阅
  • 科技

神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞

类别:科技 发布时间:2024-11-22 09:50:00 来源:机器之心Pro

租用 H100 的钱只需 233 美元。

还记得 Andrej Karpathy 纯 C 语言复现 GPT-2 大模型的项目吗?

今年 4 月,AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器学习社区的热烈讨论。

llm.c 旨在大幅简化大模型的训练,ta 使用纯 C 语言 / CUDA,不需要 245MB 的 PyTorch 或 107MB 的 cPython。不过即使是这样的优化,复现 GPT-2 级别的模型也需要在 8 块 H100 上花费 45 分钟进行训练。

没想到几个月过去,业界水平居然有了指数级的提升,让 Karpathy 本人都感到惊叹:

神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞

在 GitHub 上出现了一个新项目「Modded-NanoGPT」,对技术进行了大幅度的迭代,现在实现相同的结果只需要 5 分钟。该研究的作者 Keller Jordan 曾在 Hive AI 工作,一直以来的研究方向都着重于模型训练的优化。他在本周三表示,利用具有大序列长度的 FlexAttention,他已把速度的记录从 7.2 分钟提升到了 5 分钟。

神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞

现在有了 FlexAttention 和较大的 seqlen,文档的拆分更少了,因此语言建模在训练和验证时都变得更容易。该记录在 HellaSwag 上的准确率略有降低,约为 29%,而之前的记录和 Andrej Karpathy 的原始训练准确率约为 30%。

让我们看看他是怎么做的:

神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞

项目链接:https://github.com/KellerJordan/modded-nanogpt/tree/master

Modded-NanoGPT

该项目名为「Modded-NanoGPT」,它是 llm.c 存储库的 PyTorch GPT-2 训练器的改进变体:

10B tokens-->1B tokens 8xH100 上花 45 分钟训练 -->8xH100 上花 5 分钟训练

Modded-NanoGPT 采用如下技术:

先进的架构:旋转嵌入、QK-Norm 和 ReLU^2; 新优化器:Muon; 嵌入中的 Untied Head; 投影和分类层初始化为零(muP-like); 架构 shortcut:值残差和嵌入 shortcut(部分遵循论文《Value Residual Learning For Alleviating Attention Concentration In Transformers》); 动量(Momentum)warmup; Tanh soft logit capping(遵循 Gemma 2); FlexAttention。

要进行训练,请运行以下三个命令:

pip install -r requirements.txtpip install--pre torch --index-url https://download.pytorch.org/whl/nightly/cu124 —upgrade # install torch 2.6.0python data/cached_fineweb10B.py 10# downloads only the first 1.0B training tokens to save time./run.sh

在网络连接良好的 8xH100 上,训练应在 20 分钟内完成。

结果将是一个具有 124M 活跃参数的 transformer,在 10 亿 Fineweb tokens 上训练了 1875 steps,实现了约 3.278 的验证损失。相比之下,默认的 llm.c PyTorch 训练器在 100 亿 tokens 上训练了 19560 steps 后,验证损失 >3.28。

值得一提的是,要在更少的 GPU 上运行 Modded-NanoGPT,只需修改 run.sh 以获得不同的 --nproc_per_node。如果内存不足,只需在 train_gpt2.py 中将 device_batch_size 缩小到 16 或 32。

这里有一个适用于全新 8xH100 实例的启动脚本:

sudo apt-get updatesudo apt-getinstall vim tmux python3-pip python-is-python3 -ygit clone https://github.com/KellerJordan/modded-nanogpt.gitcd modded-nanogpttmuxpip install numpy==1.23.5 huggingface-hub tqdmpip install--upgrade torch &python data/cached_fineweb10B.py 18

如果 CUDA 或 NCCL 版本与你当前的系统设置不兼容,Docker 可以成为一种有用的替代方案。这种方法标准化了 CUDA、NCCL、CUDNN 和 Python 的版本,减少了依赖性问题并简化了设置。注意:系统上必须已安装 NVIDIA 驱动程序。

sudo docker build -t modded-nanogpt .sudo docker run -it --rm --gpus all -v $(pwd):/modded-nanogpt modded-nanogpt python data/cached_fineweb10B.py 18sudo docker run -it --rm --gpus all -v $(pwd):/modded-nanogpt modded-nanogpt sh run.sh

有一个问题在于,NanoGPT 训练很快是很好,但它可能无法扩展,只是过拟合了 val 损失?Keller Jordan 表示,这很难反驳,因为「按规模」是一个无限类别(如果这些方法对 >100T 的模型就不奏效了怎么办?),因此无法完全证明。此外,作者也同意快速运行中使用的一些方法不太可能扩展。但如果读者关心 1.5B 模型,他们可能会被这个结果说服:

直接将快速运行(10/18/24 版本)扩展到 1.5B 参数可以得到一个具有 GPT-2(1.5B)级 HellaSwag 性能的模型,它要比 Karpathy 的基线便宜 2.5 倍(233 美元对比 576 美元):

神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞

神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞

Muon optimizer

除了在前人的肩膀上探索,新项目也使用了 Keller Jordan 自研的优化方式。比如这个 Muon 优化器,据他所说是目前已知最快的优化器,适用于包括 CIFAR-10 和 GPT-2 规模语言建模在内的各种训练场景。

Muon 的定义如下:

神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞

其中 NewtonSchulz5 是 Newton-Schulz 之后的迭代,它近似地用 U @ V.T 替换 G,其中 U, S, V = G.svd ()。

@torch.compiledefzeroth_power_via_newtonschulz5 (G, steps=5, eps=1e-7):assertlen (G.shape) == 2a,b, c = (3.4445, -4.7750, 2.0315)X = G.bfloat16 () / (G.norm () + eps)ifG.size (0) > G.size (1):X = X.T for_ in range (steps):A = X @ X.TB = b * A + c * A @ AX = a * X + B @ XifG.size (0) > G.size (1):X = X.T returnX.to (G.dtype)

对于这种训练场景,Muon 具有以下有利特性:

内存使用量比 Adam 低 采样效率提高约 1.5 倍 挂钟开销小于 2%

总结

作者表示,生成此优化器的许多选择都是通过追求 CIFAR-10 快速运行而通过实验获得的。其中值得一提的经验包括:

在更新中使用 Nesterov 动量,在动量之后应用正交化。 使用特定的五次 Newton-Schulz 迭代作为正交化方法。 使用五次多项式的非收敛系数以最大化零处的斜率,从而最小化必要的 Newton-Schulz 迭代次数。事实证明,方差实际上并不那么重要,因此我们最终得到一个五次多项式,它在重复应用后(快速)收敛到 0.68、1.13 的范围,而不是到 1。 在 bfloat16 中运行 Newton-Schulz 迭代(而 Shampoo 实现通常依赖于在 fp32 或 fp64 中运行的逆 pth 根)。

使用 Newton-Schulz 迭代进行正交化的方法可以追溯到 Bernstein & Newhouse (2024),他们建议将其作为计算 Shampoo 预处理器的方法,并从理论上探索了没有预处理器累积的 Shampoo。Keller Jordan 特别感谢了论文作者之一 Jeremy Bernstein 的协助。

如果我们在这里使用 SVD 而不是 Newton-Schulz 迭代,那么这个优化器就会因为太慢而无法使用。Bernstein & Newhouse 还指出,没有预处理器累积的 Shampoo 相当于谱范数中的最陡下降,因此 Shampoo 可以被认为是一种平滑谱最陡下降的方法。所提出的优化器可以被认为是平滑谱最陡下降的第二种方法,与 Shampoo 相比,它具有不同的内存和运行时权衡。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-22 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

chatgpt低成本复现流程开源
...型训练、强化学习训练,一次性打通。最小demo训练流程仅需1.62GB显存,随便一张消费级显卡都能满足了。单卡模型容量最多提升10
2023-02-15 15:47:00
chatgpt低成本复现流程来了
...型训练、强化学习训练,一次性打通。最小demo训练流程仅需 1.62GB 显存,随便一张消费级显卡都能满足了。单卡模型容量最多提升 10
2023-02-17 14:37:00
打乱/跳过Transformer层会怎样?最新研究揭开其信息流动机制
...理任务需要结合结构和语义双重信息,而HellaSwag这类任务仅需语义即可完成。通过实验,研究人员得出结论:数学和推理任务比“语义”任务更依赖顺序。迭代对并行层有帮助吗?如果
2024-07-27 09:29:00
世界首个AI科学家连发10篇论文,横扫「顶会」!一篇仅需100元,自主科研效率完爆人类
...。更让人难以置信的是,从构思到成文,一篇论文的成本仅需15美金(107.61元)。「AI科学家」是由Transformer八大金刚之一Llion Jones的创业公司——Sakana AI提出
2024-08-14 13:55:00
Meta连甩AI加速大招 首推AI推理芯片 AI超算专供大模型训练
...设计、首款视频转码ASIC,以及集成16000块GPU、用于加速AI训练的AI超级计算机RSC等。Meta官网关于AI基础设施细节的披露Meta将AI视为公司的核心基础设施
2023-05-19 14:01:00
从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷
...用 Adam 优化器运行 70 个梯度下降 epoch。研究者在实验中仅需重复迭代 DAgger 三次就可以实现接近专家表现程度的视觉控制器
2024-11-19 09:50:00
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
...和Glaive创始人Sahil Chaudhary一起调查此事。(Reflection 70B的训练过程中,使用了Glaive的合成数据)有趣的问题
2024-10-08 09:47:00
谷歌发布 MediaPipe Diffusion 插件
...可控文本到图像生成」的低成本解决方案,支持现有的预训练扩散模型及其低秩自适应(LoRA)变体背景知识基于扩散模型的图像生成过程可以认为是一个迭代去噪过程。从噪声图像开始,在每
2023-07-13 05:54:00
开源狂潮让巨头惨败,谷歌内部文件曝光
...。多模态:当前的多模态ScienceQASOTA,只用一个小时就能训练出来。虽然我们的模型在质量上仍然略有优势,但差距正在以惊人的速度缩小。这些开源模型更快、更可定制、更私密
2023-05-07 20:36:00
更多关于科技的资讯:
Ta来消博了 | 全球头部游戏公司娱美德将携“传奇”IP系列产品参展第五届消博会
南海网4月2日消息(记者 王子遥)记者从第五届中国国际消费品博览会组委会获悉,全球头部游戏公司娱美德集团(下称“娱美德”)将携旗下经典游戏IP“传奇”系列产品《传奇M
2025-04-02 21:26:00
让外科手术实现“细胞级精准” 合肥这项技术登上《Nature》
大皖新闻讯 日前,国际顶级权威学术期刊《Nature》专访安徽树突光学科技有限公司(以下简称“树突精密”),并发表关于细胞级荧光导引技术的报道
2025-04-02 21:34:00
果然财经|“精致感和场景化”上差异竞争,威海首店经济频出圈
齐鲁晚报·齐鲁壹点 李孟霏 潘佳蓬2024年,威海社会消费品零售总额达到1447亿元,增长6.1%,分别高于全省、全国1
2025-04-02 22:22:00
汇川:“5G+工业互联网”炼就“电梯智造王国”
多彩贵州网讯 在贵州中航电梯有限责任公司智能化生产线上,26台智能机器人正演绎着“数字芭蕾”——机械臂精准完成折弯、焊接
2025-04-02 22:33:00
高通第四代骁龙8s支持新一代帧生成算法:60fps游戏秒变120fps
快科技4月2日消息,今日下午,高通正式推出了第四代骁龙8s移动平台,这一新品在多个关键领域实现了显著升级。首先,其采用了全大核CPU架构
2025-04-02 18:40:00
美国加征25%让低价车无钱可赚 奔驰考虑在美撤下入门车型
快科技4月2日消息,据报道,美国将对进口汽车加征25%的额外关税,自4月2日起生效。分析师称,这将使每辆汽车的成本增加数千美元
2025-04-02 18:40:00
REDMI首发!高通第四代骁龙8s正式发布:系列首次全大核
快科技4月2日消息,今天下午,高通正式发布了全新旗舰平台——第四代骁龙8s。高通将其定义为“新生代旗舰”,专为追求出色娱乐体验和创作体验的用户打造
2025-04-02 18:40:00
蔚来乐道总裁官宣离职:辜负期待 深感愧疚
“做不到,就下课”3月销量放榜第二天,蔚来乐道品牌总裁艾铁成兑现承诺,官宣离职。去年11月广州车展上,艾铁成公开立下“军令状”
2025-04-02 18:40:00
3月交付过没过两万:蔚来乐道总裁艾铁成“下课”
难抵压力,乐道汽车总裁艾铁成还是“下课了”。4 月 2 日上午,艾铁成通过乐道 App 发表文章宣布离职,不再担任乐道汽车总裁和蔚来高级副总裁
2025-04-02 18:40:00
小米汽车司机驾驶中睡着上热搜 客服回应:智驾系统只是辅助
快科技4月2日消息,近日,有网友曝光小米汽车车主驾驶中睡着,双手离开方向盘。同行友人连喊三遍“减速”避让小米汽车。据视频显示
2025-04-02 18:40:00
永辉高管谈调改 于东来直接打断!质问月赚200万为何不涨工资
快科技4月2日消息,在近日的2025中国超市周活动现场,永辉超市负责调改的高管正在台上演讲,被胖东来创始人于东来登台打断
2025-04-02 18:40:00
博主吐槽新能源汽车门把手根本找不到 打车感觉自己像土鳖
快科技4月2日消息,近日,一位博主在社交媒体上吐槽新能源汽车的门把手设计,引发了广泛关注和讨论。随着网约车的普及,乘客们发现
2025-04-02 18:40:00
全球富豪榜变化:马斯克仍高居榜首 巴菲特跃居第五
今年年初,全球千亿美元级超级富豪数量为16人,但如今已降至13人。这一变化源于美股在一季度遭遇自2022年以来最严重的季度跌幅
2025-04-02 19:10:00
REDMI/iQOO首批商用!一图了解高通第四代骁龙8s
快科技4月2日消息,今天下午,高通正式发布第四代骁龙8s。据悉,第四代骁龙8s基于台积电4nm工艺制造,其Kryo CPU采用1+3+2+2的 “1超7大” 架构设计
2025-04-02 19:10:00
比亚迪21%毛利率背后的变革
2025年只过了3个月,比亚迪的营收能力再次震慑车圈。3月24日,比亚迪发布2024年财务报告。财报显示,2024年比亚迪营业收入7771
2025-04-02 19:10:00