• 我的订阅
  • 科技

GPT-4被破解 训练成本 模型架构的秘密都被挖出来了?

类别:科技 发布时间:2023-07-12 20:14:00 来源:浅语科技

几个小时前SemiAnalysis的DYLANPATEL和DYLANPATEL发布了一个关于GPT-4的技术信息,包括GPT-4的架构、参数数量、训练成本、训练数据集等。本篇涉及的GPT-4数据是由他们收集,并未公开数据源。仅供参考。

原文翻译如下:

揭秘GPT-4:导致OpenAI架构的工程权衡

OpenAI 保持 GPT-4 架构的封闭性并不是因为对人类存在一些生存风险,而是因为他们构建的东西是可复制的。事实上,我们预计Google、Meta、Anthropic、Inflection、Character、腾讯、字节跳动、百度等在短期内都将拥有与 GPT-4 一样强大的模型。

不要误解我们的意思,OpenAI 拥有令人惊叹的工程技术,他们构建的东西令人难以置信,但他们得出的解决方案并不神奇。这是一个优雅的解决方案,具有许多复杂的权衡。做大只是战斗的一部分。 OpenAI 最持久的护城河是他们拥有最真实的使用情况、领先的工程人才,并且可以通过未来的模型继续领先于其他人。

我们从许多来源收集了大量有关 GPT-4 的信息,今天我们想分享一下。这包括模型架构、训练基础设施、推理基础设施、参数计数、训练数据集组成、令牌计数、层数、并行策略、多模态视觉适应、不同工程权衡背后的思维过程、独特的实施技术以及它们如何减轻一些问题他们最大的瓶颈与巨型模型的推理有关。

GPT-4 最有趣的方面是理解他们为什么做出某些架构决策。

此外,我们将概述 A100 上 GPT-4 的训练和推理成本,以及如何在下一代模型架构中与 H100 进行扩展。

首先,问题陈述。从 GPT-3 到 4,OpenAI 希望扩展 100 倍,但问题是成本。密集变压器模型将无法进一步扩展。密集变压器是 OpenAIGPT-3、GooglePaLM、MetaLLAMA、TIIFalcon、MosaicMLMPT 等使用的模型架构。我们可以轻松说出 50 家使用相同架构培训法学硕士的公司。这是一个很好的方法,但它在扩展方面存在缺陷。

从训练成本的角度来看,请参阅我们在 GPT-4 公告之前关于即将推出的密集模型 AI 砖墙的训练成本讨论。在那里,我们揭示了 OpenAI 在 GPT-4 架构方面所做的高层工作以及各种现有模型的训练成本。

在过去的 6 个月里,我们意识到培训成本无关紧要。

当然,从表面上看,花费数千万甚至数亿美元的计算时间来训练模型似乎很疯狂,但这对于这些公司来说是微不足道的。它实际上是一个资本支出项目,规模扩大可以持续带来更好的结果。唯一的限制因素是将计算扩展到人类可以获得反馈并修改架构的时间尺度。

未来几年,谷歌、Meta、OpenAI/微软等多家公司将在价值超过千亿元的超级计算机上训练模型。Meta 每年在“Metaverse”上燃烧超过 160 亿美元,Google 每年在各种永远不会实现成果的项目上浪费 100 亿美元。亚马逊在 Alexa 上损失了超过 50 亿美元。加密货币在毫无价值的事情上浪费了超过 1000 亿美元。

这些公司和整个社会可以而且将会花费超过一千亿美元来创建可以训练单个大规模模型的超级计算机。然后可以通过多种方式将这些大型模型产品化。这项工作将在多个县和公司重复进行。这是新的太空竞赛。以前的浪费与现在的区别在于,人工智能可以在短期内从人类助手和自主代理身上带来有形的价值。

扩展人工智能(真正的人工智能砖墙)的更重要问题目标是将训练计算与推理计算分离。这就是为什么训练 Chinchilla 对于任何将要部署的模型来说都是最佳的。这就是为什么要进行稀疏模型架构;每个参数在推理过程中都不会被激活。

真正的战斗是将这些模型扩展到用户和代理的成本太高。推理成本是训练成本的数倍。这就是OpenAI在模型架构和基础设施方面的创新目标。

大型模型的推理是一个多变量问题,其中模型大小会导致密集模型的死亡。

我们已经在这里详细讨论了有关边缘的问题,但数据中心的问题陈述非常相似。简而言之,设备永远不可能有足够的内存带宽来容纳大型语言模型来实现一定水平的吞吐量。即使它们有足够的带宽,边缘硬件计算资源的利用率也会很糟糕。

在数据中心、云中,利用率就是一切。 Nvidia 因其卓越的软件而受到赞誉的一半原因是,在 GPU 的几代生命周期中,Nvidia 不断更新低级软件,通过在芯片周围、芯片和内存之间更智能地移动数据来提高 FLOPS 利用率。

目前大多数用例中的 LLM 推理都是作为实时助手运行,这意味着它必须实现足够高的吞吐量,以便用户可以实际使用它。人类平均每分钟阅读约 250 个单词,但有些人的阅读速度高达每分钟约 1,000 个单词。这意味着您需要每秒至少输出 8.33 个令牌,但每秒需要输出 33.33 个令牌才能覆盖所有极端情况。

由于内存带宽要求,即使在最新的 NvidiaH100GPU 服务器上,万亿参数密集模型在数学上也无法实现此吞吐量。每个生成的令牌都需要将每个参数从内存加载到芯片上。然后,将生成的令牌输入到提示中,并生成下一个令牌。此外,注意力机制的 KV 缓存中的流传输需要额外的带宽。

GPT-4被破解 训练成本 模型架构的秘密都被挖出来了?

上图展示了以足够高的吞吐量推理 LLM 以便为单个用户提供服务所需的内存带宽。它表明,即使 8xH100 也无法以每秒 33.33 个令牌的速度提供 1 万亿参数密集模型。此外,每秒 20 个令牌的 8xH100 的 FLOPS 利用率仍低于 5%,导致推理成本非常高。实际上,目前的 8 路张量并行 H100 系统存在约 3000 亿个前馈参数的推理约束。

然而,OpenAI 正在通过 A100 实现人类的阅读速度,其模型超过 1 万亿个参数,并且以每 1,000 个代币仅 0.06 美元的低价广泛提供。那是因为它是稀疏的,IE 并不是每个参数都被使用。

废话够多了,我们来谈谈 GPT-4 模型架构、训练基础设施、推理基础设施、参数计数、训练数据集组成、标记计数、层数、并行策略、多模态视觉编码器、不同工程权衡背后的思维过程、独特的实施的技术,以及它们如何缓解与大型模型推理相关的一些最大瓶颈。

总结主要的关于GPT-4的信息(总结来自YamPeleg的推文):

参数数量:GPT-4比GPT-3大10倍,估计参数数量在120层、1.8万亿左右。

MoE架构:即Mixture-of-Experts架构,这部分信息已经确认,OpenAI通过利用MoE架构保持一定的成本,包含16个Experts,每一个都是一个MLP.2,约1110亿参数,每个前向传播都被路由到这些专家中

MoE路由:尽管公开的技术文档中说了很多高级的路由功能,包括每个token如何选择每个专家等。但是现有GPT-4其实非常简单,大约就是为每个attention共享550亿参数的方式。

推理:每一个前向传播的推理(生成一个token)需要2800亿参数以及560TFLOPS,这与纯dense模型每次正向传递所需的约1.8万亿参数和3700TFLOPS形成了鲜明对比。

训练数据集:GPT-4在约13万亿tokens上训练。这不是指不同的token数量,是根据epochs计算使用的token数量。基于文本的数据集做了2次epoch训练,基于代码的数据集做了4次epoch训练。

GPT-432K:每一个预训练阶段都是8K的长度。32K的版本是8K预训练模型之后微调得到的。

BatchSize:batchsize是逐渐上升的,在集群中经过几天的时间达到一个数值。最终,OpenAI的BatchSize达到了6000万!也就是每个专家大约有750万的token数量,但是并不是每个专家都能看到所有的tokens。

并行策略:由于NVLink的限制,OpenAI训练GPT-4做了8路tensor并行,15路的pipeline并行。

训练成本:OpenAI训练GPT-4的FLOPS约2.15e25,在2.5万个A100上训练了90-100天左右时间(MFU约32%到36%),如果是一个A100约1美元,那么训练成本约6300万美元(如果现在使用H100可能只要2150万美元)。

MoE的取舍:使用MoE之后做了很多取舍,包括推理的处理困难,因为每个模型都用来生成文本。这意味着生成的时候有的可以使用,有的空闲,对使用率来说非常浪费。研究显示64-128个专家的损失比16个专家更好。

GPT-4的推理成本:比1750亿的Davinchi(GPT-3/3.5系列)高3倍,主要是GPT-4的集群太大,利用率低一点。估计约1ktokens要0.0049美元(128个A100)。

MOA:MultiQueryAttention,和其他人一样,都是正常使用MOA。因为只需要1个head,显存大大下降,但是32K依然无法在A10040G运行。

持续batching:OpenAI使用可变的batchsize和持续batching方法。可以平衡推理成本和推理速度。

VisionMulti-Modal:GPT-4的多模态部分是单独一个visiionencoder,带有crossattention。使得1.8万亿的GPT-4的参数扩展到2万亿左右。VisionModel是从头训练的,还不够成熟。Vision部分的一个作用是让代理可以月度网页,然后转换成图片和视频。部分数据是基于Latex与屏幕截屏训练的。还有YouTube视频,包括使用whisper翻译的脚本与抽帧结果。

推理架构:推理是在128个GPU集群上运行的,在不同的区域有不同的集群。每个节点有8个GPU,包含1300亿参数的模型。或者说每个GPU少于30GB的FP16、少于15GB的FP8/int8。

GPT-4被破解 训练成本 模型架构的秘密都被挖出来了?

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-07-12 23:45:22

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

大模型\\\
...的要求会更高,届时唯有具备弹性扩展能力的分布式存储架构,才能支撑未来3-5年的AI进化需求。在与多个客户深入交流后,京东云方面发现,除了国产化层面的要求,对海外存储厂商的祛魅
2025-04-08 17:41:00
揭秘iPhone里的Transformer:基于GPT-2架构 | MIT校友出品
...Cook的小哥,就把macOS Sonoma beta翻了个底朝天,结果,还真挖出不少新鲜信息:模型架构上,Cook小哥认为苹果的语言模型更像是基于GPT-2打造的
2023-09-18 18:05:00
gpt-4模型架构泄露:包含1.8万亿参数、采用混合专家模型
...I今年3月发布的GPT-4大模型进行了揭秘,其中包括GPT-4模型架构、训练和推理的基础设施、参数量、训练数据集、token数
2023-07-14 22:06:00
大模型新趋势之MoE:现状、挑战及研究方向
...快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任
2024-11-04 16:00:00
开源狂潮让巨头惨败,谷歌内部文件曝光
...法是否真的需要一个全新的模型?如果我们真的有重大的架构改进,以至于无法直接重新使用模型权重,那么我们应该去投资更积极的蒸馏形式,来尽可能多地保留上一代模型的功能。如果我们能够
2023-05-07 20:36:00
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...型大小)实现了更好的性能。最后,作者结合 Transformer 架构的最新进展,例如逐层缩放、使用 MoE 的稀疏 Transformer
2024-07-30 09:37:00
模型即服务,卓世科技MaaS平台 2.0 正式上线
...现跨设备、跨域、跨品牌算力融合管理 6、支持各类模型架构:多种模型种类的支持,如大语言模型、多模态模型等;多种模型架构支持
2024-08-07 09:45:00
用60%成本干80%的事,DeepSeek分享沉淀多年的高性能深度学习架构
硬件发展速度跟不上 AI 需求,就需要精妙的架构和算法。根据摩尔定律,计算机的速度平均每两年就会翻一倍,但深度学习的发展速度还要更快,如图 1 和 2 所示。可以看到,AI 对算
2024-09-07 09:44:00
中国也有Sora同款训练架构公司,清华班底,智谱也投了 | 36氪首发
文 | 周鑫雨编辑 | 邓咏仪全球首家发布Sora同款底层架构的清华系模型公司,近期完成了新一轮融资。投资名单中,也出现了大模型独角兽智谱AI的身影。36氪获悉,近日多模态AI模
2024-03-14 15:12:00
更多关于科技的资讯:
企业家故事 | 追“光”传奇,山东宇影李正坤和他的透镜宇宙
齐鲁晚报·齐鲁壹点 李梦晴 李庆都 通讯员 朱雪松 刘长胜在德州市临邑县,一座占地160亩的现代化企业中,近700名员工正在各自岗位上有条不紊地忙碌
2025-09-16 18:56:00
DEKRA德凯百年庆典隆重举行:传承百年使命,共创安全未来
2025年,全球领先的检验检测认证机构DEKRA德凯迎来成立一百周年。值此世纪里程碑之际,DEKRA德凯亚太区于9月12日在上海隆重举行百年庆典
2025-09-16 13:38:00
中国品牌,全球奖项:及象教育双奖加身,引领银发教育“中国服务”时代
9月13日,第四届全球品牌经济大会在北京首钢国际会展中心举行,作为中国国际服务贸易交易会的重要组成部分,本届大会以“向远
2025-09-16 13:38:00
优机优补、有进有出:中国农机正迎来新的黄金时代
大众网记者 刘晓雨 通讯员 张一晓 潍坊报道当前,中国农机行业正站在转型升级的关键节点。国家通过“优机优补、有进有出”的补贴政策
2025-09-16 10:21:00
河北新闻网讯(闫丽颖、罗俊明)近日,开滦股份范各庄矿顺利完成SVG智能升级改造工程。该工程不仅破解了长期困扰安全生产的供电系统稳定性难题
2025-09-16 09:41:00
西贝真正的敌人,从来都不是罗永浩
近期最热的事,毫无疑问,罗永浩大战西贝。如果你还没关注,也没事,差评君给你简单说下来龙去脉。9月10号,罗永浩发了条微博
2025-09-16 05:14:00
江西超高压工程实现“智能”验收
本报讯(全媒体记者谢梦丽)9月12日,随着一架无人机平稳返航,国网江西省电力有限公司在赣州东500千伏输变电工程现场的全线数字化验收顺利完成
2025-09-16 06:53:00
南京天加环境攻克技术难题,“节能”和“减排”双路径绿色发展为地球控温1.5℃持续努力□南京日报/紫金山新闻记者黄琳燕当全球平均气温较工业化前水平上升超过1
2025-09-16 07:46:00
“法国经验”遇上“中国制造”,南山飞卓攻克大飞机产业链“关键一步”——全球主力民航客机今后将用上“南京造”□通讯员杨淏涵南京日报/紫金山新闻记者张希一个是欧洲排名第一的飞机精密零件制造商法国FigeacAero(下称“飞卓宇航”)
2025-09-16 07:46:00
最浪漫的潮州特产,统治美国人婚礼
凌晨3点,广东潮州。一家婚纱公司收到一封紧急邮件,屏幕那端,是美国客户的紧急恳求——“请务必保质保量,按时交货,拜托拜托”
2025-09-16 05:13:00
36氪合伙人、副总裁李政:中国产业的未来在哪?| 2025年36氪产业未来大会
9月10日,由36氪主办的2025年36氪产业未来大会在中国厦门盛大启幕。本次大会重磅携手商务部主办的“中国国际投资贸易洽谈会”
2025-09-16 01:03:00
核电“听诊器”打破卡脖子壁垒 中船集团携多款核心产品亮相烟台
齐鲁晚报·齐鲁壹点记者 于民星9月15日,2025山东清洁能源产业博览会和第18届烟台国际核电工业及装备博览会双展联动
2025-09-15 23:49:00
南方电网兴义供电局:职工自研装置投入使用 开启变电设备一键检测新模式
9月11日,在南方电网兴义供电局500千伏仁义变电站内,一套由该局文峰职工创新工作室历经3年自主研发的“无线传输型的氧化锌避雷器多组同步带电检测装置”成功投入使用
2025-09-15 23:11:00
人力资源管理专家汪江涛:以人才体系创新激活企业内生动力
文/许笑“人力资源管理的价值,在于精准识别组织痛点,通过体系搭建、机制创新与人才激活,将人力资源转化为推动企业前行的动能
2025-09-15 11:17:00
长白时评评论员 久泰平近日,围绕“预制菜”的争论持续发酵,引发广泛关注。表面上看,双方争执的焦点是“什么才算预制菜”,实则揭开了餐饮行业一个长期被回避的核心议题
2025-09-15 11:22:00