我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

GPT-4被破解训练成本模型架构的秘密都被挖出来了？

类别：科技发布时间：2023-07-12 20:14:00 来源：浅语科技

几个小时前SemiAnalysis的DYLANPATEL和DYLANPATEL发布了一个关于GPT-4的技术信息，包括GPT-4的架构、参数数量、训练成本、训练数据集等。本篇涉及的GPT-4数据是由他们收集，并未公开数据源。仅供参考。

原文翻译如下：

揭秘GPT-4：导致OpenAI架构的工程权衡

OpenAI 保持 GPT-4 架构的封闭性并不是因为对人类存在一些生存风险，而是因为他们构建的东西是可复制的。事实上，我们预计Google、Meta、Anthropic、Inflection、Character、腾讯、字节跳动、百度等在短期内都将拥有与 GPT-4 一样强大的模型。

不要误解我们的意思，OpenAI 拥有令人惊叹的工程技术，他们构建的东西令人难以置信，但他们得出的解决方案并不神奇。这是一个优雅的解决方案，具有许多复杂的权衡。做大只是战斗的一部分。 OpenAI 最持久的护城河是他们拥有最真实的使用情况、领先的工程人才，并且可以通过未来的模型继续领先于其他人。

我们从许多来源收集了大量有关 GPT-4 的信息，今天我们想分享一下。这包括模型架构、训练基础设施、推理基础设施、参数计数、训练数据集组成、令牌计数、层数、并行策略、多模态视觉适应、不同工程权衡背后的思维过程、独特的实施技术以及它们如何减轻一些问题他们最大的瓶颈与巨型模型的推理有关。

GPT-4 最有趣的方面是理解他们为什么做出某些架构决策。

此外，我们将概述 A100 上 GPT-4 的训练和推理成本，以及如何在下一代模型架构中与 H100 进行扩展。

首先，问题陈述。从 GPT-3 到 4，OpenAI 希望扩展 100 倍，但问题是成本。密集变压器模型将无法进一步扩展。密集变压器是 OpenAIGPT-3、GooglePaLM、MetaLLAMA、TIIFalcon、MosaicMLMPT 等使用的模型架构。我们可以轻松说出 50 家使用相同架构培训法学硕士的公司。这是一个很好的方法，但它在扩展方面存在缺陷。

从训练成本的角度来看，请参阅我们在 GPT-4 公告之前关于即将推出的密集模型 AI 砖墙的训练成本讨论。在那里，我们揭示了 OpenAI 在 GPT-4 架构方面所做的高层工作以及各种现有模型的训练成本。

在过去的 6 个月里，我们意识到培训成本无关紧要。

当然，从表面上看，花费数千万甚至数亿美元的计算时间来训练模型似乎很疯狂，但这对于这些公司来说是微不足道的。它实际上是一个资本支出项目，规模扩大可以持续带来更好的结果。唯一的限制因素是将计算扩展到人类可以获得反馈并修改架构的时间尺度。

未来几年，谷歌、Meta、OpenAI/微软等多家公司将在价值超过千亿元的超级计算机上训练模型。Meta 每年在“Metaverse”上燃烧超过 160 亿美元，Google 每年在各种永远不会实现成果的项目上浪费 100 亿美元。亚马逊在 Alexa 上损失了超过 50 亿美元。加密货币在毫无价值的事情上浪费了超过 1000 亿美元。

这些公司和整个社会可以而且将会花费超过一千亿美元来创建可以训练单个大规模模型的超级计算机。然后可以通过多种方式将这些大型模型产品化。这项工作将在多个县和公司重复进行。这是新的太空竞赛。以前的浪费与现在的区别在于，人工智能可以在短期内从人类助手和自主代理身上带来有形的价值。

扩展人工智能（真正的人工智能砖墙）的更重要问题目标是将训练计算与推理计算分离。这就是为什么训练 Chinchilla 对于任何将要部署的模型来说都是最佳的。这就是为什么要进行稀疏模型架构；每个参数在推理过程中都不会被激活。

真正的战斗是将这些模型扩展到用户和代理的成本太高。推理成本是训练成本的数倍。这就是OpenAI在模型架构和基础设施方面的创新目标。

大型模型的推理是一个多变量问题，其中模型大小会导致密集模型的死亡。

我们已经在这里详细讨论了有关边缘的问题，但数据中心的问题陈述非常相似。简而言之，设备永远不可能有足够的内存带宽来容纳大型语言模型来实现一定水平的吞吐量。即使它们有足够的带宽，边缘硬件计算资源的利用率也会很糟糕。

在数据中心、云中，利用率就是一切。 Nvidia 因其卓越的软件而受到赞誉的一半原因是，在 GPU 的几代生命周期中，Nvidia 不断更新低级软件，通过在芯片周围、芯片和内存之间更智能地移动数据来提高 FLOPS 利用率。

目前大多数用例中的 LLM 推理都是作为实时助手运行，这意味着它必须实现足够高的吞吐量，以便用户可以实际使用它。人类平均每分钟阅读约 250 个单词，但有些人的阅读速度高达每分钟约 1,000 个单词。这意味着您需要每秒至少输出 8.33 个令牌，但每秒需要输出 33.33 个令牌才能覆盖所有极端情况。

由于内存带宽要求，即使在最新的 NvidiaH100GPU 服务器上，万亿参数密集模型在数学上也无法实现此吞吐量。每个生成的令牌都需要将每个参数从内存加载到芯片上。然后，将生成的令牌输入到提示中，并生成下一个令牌。此外，注意力机制的 KV 缓存中的流传输需要额外的带宽。

上图展示了以足够高的吞吐量推理 LLM 以便为单个用户提供服务所需的内存带宽。它表明，即使 8xH100 也无法以每秒 33.33 个令牌的速度提供 1 万亿参数密集模型。此外，每秒 20 个令牌的 8xH100 的 FLOPS 利用率仍低于 5%，导致推理成本非常高。实际上，目前的 8 路张量并行 H100 系统存在约 3000 亿个前馈参数的推理约束。

然而，OpenAI 正在通过 A100 实现人类的阅读速度，其模型超过 1 万亿个参数，并且以每 1,000 个代币仅 0.06 美元的低价广泛提供。那是因为它是稀疏的，IE 并不是每个参数都被使用。

废话够多了，我们来谈谈 GPT-4 模型架构、训练基础设施、推理基础设施、参数计数、训练数据集组成、标记计数、层数、并行策略、多模态视觉编码器、不同工程权衡背后的思维过程、独特的实施的技术，以及它们如何缓解与大型模型推理相关的一些最大瓶颈。

总结主要的关于GPT-4的信息（总结来自YamPeleg的推文）：

参数数量：GPT-4比GPT-3大10倍，估计参数数量在120层、1.8万亿左右。

MoE架构：即Mixture-of-Experts架构，这部分信息已经确认，OpenAI通过利用MoE架构保持一定的成本，包含16个Experts，每一个都是一个MLP.2，约1110亿参数，每个前向传播都被路由到这些专家中

MoE路由：尽管公开的技术文档中说了很多高级的路由功能，包括每个token如何选择每个专家等。但是现有GPT-4其实非常简单，大约就是为每个attention共享550亿参数的方式。

推理：每一个前向传播的推理（生成一个token）需要2800亿参数以及560TFLOPS，这与纯dense模型每次正向传递所需的约1.8万亿参数和3700TFLOPS形成了鲜明对比。

训练数据集：GPT-4在约13万亿tokens上训练。这不是指不同的token数量，是根据epochs计算使用的token数量。基于文本的数据集做了2次epoch训练，基于代码的数据集做了4次epoch训练。

GPT-432K：每一个预训练阶段都是8K的长度。32K的版本是8K预训练模型之后微调得到的。

BatchSize：batchsize是逐渐上升的，在集群中经过几天的时间达到一个数值。最终，OpenAI的BatchSize达到了6000万！也就是每个专家大约有750万的token数量，但是并不是每个专家都能看到所有的tokens。

并行策略：由于NVLink的限制，OpenAI训练GPT-4做了8路tensor并行，15路的pipeline并行。

训练成本：OpenAI训练GPT-4的FLOPS约2.15e25，在2.5万个A100上训练了90-100天左右时间（MFU约32%到36%），如果是一个A100约1美元，那么训练成本约6300万美元（如果现在使用H100可能只要2150万美元）。

MoE的取舍：使用MoE之后做了很多取舍，包括推理的处理困难，因为每个模型都用来生成文本。这意味着生成的时候有的可以使用，有的空闲，对使用率来说非常浪费。研究显示64-128个专家的损失比16个专家更好。

GPT-4的推理成本：比1750亿的Davinchi（GPT-3/3.5系列）高3倍，主要是GPT-4的集群太大，利用率低一点。估计约1ktokens要0.0049美元（128个A100）。

MOA：MultiQueryAttention，和其他人一样，都是正常使用MOA。因为只需要1个head，显存大大下降，但是32K依然无法在A10040G运行。

持续batching：OpenAI使用可变的batchsize和持续batching方法。可以平衡推理成本和推理速度。

VisionMulti-Modal：GPT-4的多模态部分是单独一个visiionencoder，带有crossattention。使得1.8万亿的GPT-4的参数扩展到2万亿左右。VisionModel是从头训练的，还不够成熟。Vision部分的一个作用是让代理可以月度网页，然后转换成图片和视频。部分数据是基于Latex与屏幕截屏训练的。还有YouTube视频，包括使用whisper翻译的脚本与抽帧结果。

推理架构：推理是在128个GPU集群上运行的，在不同的区域有不同的集群。每个节点有8个GPU，包含1300亿参数的模型。或者说每个GPU少于30GB的FP16、少于15GB的FP8/int8。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2023-07-12 23:45:22

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于挖出,架构,模型,成本,训练,秘密的资讯：

$大模型\\\$

大模型\"吞金\"时代，CTO们\"存力焦虑\"怎么解？

...的要求会更高，届时唯有具备弹性扩展能力的分布式存储架构，才能支撑未来3-5年的AI进化需求。在与多个客户深入交流后，京东云方面发现，除了国产化层面的要求，对海外存储厂商的祛魅

2025-04-08 17:41:00

揭秘iPhone里的Transformer：基于GPT-2架

...Cook的小哥，就把macOS Sonoma beta翻了个底朝天，结果，还真挖出不少新鲜信息：模型架构上，Cook小哥认为苹果的语言模型更像是基于GPT-2打造的

2023-09-18 18:05:00

gpt-4模型架构泄露：包含1.8万亿参数、采用混合专家模型

...I今年3月发布的GPT-4大模型进行了揭秘，其中包括GPT-4模型架构、训练和推理的基础设施、参数量、训练数据集、token数

2023-07-14 22:06:00

大模型新趋势之MoE：现状、挑战及研究方向

...快推出MoE大模型，1-5月发布千亿以上大模型均采用MoE优化架构，且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势，更适合处理大规模数据和复杂任

2024-11-04 16:00:00

开源狂潮让巨头惨败，谷歌内部文件曝光

...法是否真的需要一个全新的模型？如果我们真的有重大的架构改进，以至于无法直接重新使用模型权重，那么我们应该去投资更积极的蒸馏形式，来尽可能多地保留上一代模型的功能。如果我们能够

2023-05-07 20:36:00

1890美元，就能从头训练一个还不错的12亿参数扩散模型

...型大小）实现了更好的性能。最后，作者结合 Transformer 架构的最新进展，例如逐层缩放、使用 MoE 的稀疏 Transformer

2024-07-30 09:37:00

模型即服务，卓世科技MaaS平台 2.0 正式上线

...现跨设备、跨域、跨品牌算力融合管理 6、支持各类模型架构：多种模型种类的支持，如大语言模型、多模态模型等;多种模型架构支持

2024-08-07 09:45:00

用60%成本干80%的事，DeepSeek分享沉淀多年的高性

硬件发展速度跟不上 AI 需求，就需要精妙的架构和算法。根据摩尔定律，计算机的速度平均每两年就会翻一倍，但深度学习的发展速度还要更快，如图 1 和 2 所示。可以看到，AI 对算

2024-09-07 09:44:00

中国也有Sora同款训练架构公司，清华班底，智谱也投了 |

文 | 周鑫雨编辑 | 邓咏仪全球首家发布Sora同款底层架构的清华系模型公司，近期完成了新一轮融资。投资名单中，也出现了大模型独角兽智谱AI的身影。36氪获悉，近日多模态AI模

2024-03-14 15:12:00

更多关于科技的资讯：

上市“后备军”，钟楼+2！

近日，江苏省科技厅公布2025年度省科技企业上市培育计划拟入库企业名单，常州市共5家企业入选，其中钟楼区有2家，分别是

2025-11-06 09:09:00

本科生站在创新前沿高水平学科竞赛屡获最高奖

□南京日报/紫金山新闻记者何洁实习生杨久久“人工智能+”专项赛中荣获特等奖！11月3日，在第十九届“挑战杯”中国移动全国大学生课外学术科技作品竞赛中

2025-11-06 07:46:00

记者走基层｜巧搭“数字积木” 智绘梦想花园

10月29日，承德图布斯科技集团有限公司技术人员正在调试设计图。河北日报记者陈宝云摄10月29日，在承德图布斯科技集团有限公司（以下简称“图布斯公司”）的研发中心

2025-11-05 08:12:00

大数据赋能思政课精准教学

□曹清华党的二十届四中全会提出，实施新时代立德树人工程，促进思政课堂和社会课堂有效融合，加强体育、美育、劳动教育，完善教育评价体系

2025-11-05 08:16:00

2025年沪江网校课程质量高于预期：退费无忧+承诺与践行一致

一、沪江网校简介为沪江教育旗下品牌，沪江网校自 2009 年成立以来，始终聚焦外语学习者需求，提供网校一对一，凭借专业教学服务与多元课程体系

2025-11-05 14:45:00

2025年10月GEO推荐：用户口碑与效果评测榜单出炉

（一）开篇引言行业背景与痛点：中国信息通信研究院《2025年数字营销发展趋势报告》显示，2024年我国生成式引擎优化（GEO）市场规模已达47亿元

2025-11-05 14:47:00

“南京造”智能体加速走向产业一线

在智能体产业快步迈入规模化的当下，南京正以软件产业的深厚积淀、政策生态的精准培育、应用场景的丰富储备，抢占AI科技革命新高点前几天

2025-11-05 15:06:00

Openloong开源社区亮相ROSCon China 20

10月31日至11月1日，ROSCon China 2025在上海虹桥新华联索菲特大酒店成功举办。这一汇聚了全球ROS领域顶尖专家与开发者的年度盛会

2025-11-05 15:29:00

职场“反内卷”调研报告干货多多

近日，智联招聘《职场“反内卷”调研报告》，探究职场人对于“反内卷”的真实态度与选择，了解企业的相应举措。今年“多家知名企业实施强制下班”的新闻冲上热搜

2025-11-05 15:32:00

东平农商银行：“同心乐商贷”50万活水浇灌刘先生甜蜜创业梦

鲁网11月5日讯“真没想到，资金难题这么快就解决了！东平农商银行的‘同心乐商贷’真是及时雨，我的蛋糕房终于要开起来了。”近日

2025-11-05 15:55:00

中国联通（青岛）智算中心DC1获评“2025年度国家绿色数据

鲁网11月5日讯10月27日，工业和信息化部节能与综合利用司发布《2025年度国家绿色数据中心名单公示》，中国联通（青岛）智算中心DC1荣获“2025年度国家绿色数据中心”称号

2025-11-05 15:57:00

以创新实力擘画虚实融合新图景江西移动全力推进VR产业发展

10月19日至20日，2025世界VR产业大会在南昌举行，来自全球VR领域的专家学者、领军企业和业界精英齐聚南昌，共同探讨VR与AI融合发展的新趋势

2025-11-05 17:44:00

语言、技能与数字化：培生亮相CACIE 2025，共筑未来教

2025年10月29日至11月1日，第26届中国国际教育年会（CACIE）在北京国家会议中心举行。全球终身学习公司培生（FTS: PSON

2025-11-05 18:00:00

找对 “充电站”，心理从业者进阶不迷路！灵动生活集团幸福心理

“考下资格证却接不到个案，能做咨询却不懂怎么运营工作室”—— 这是国内超 70% 心理从业者入行后都会遇到的 “成长困境”

2025-11-05 18:01:00

第二十届福州市青少年机器人竞赛圆满落幕近3500名青少年点

福州新闻网11月5日讯（记者徐昕昀文/图）11月2日，随着最后一场机器人竞技挑战赛的终场指令在福州高新区青少年活动中心响起

2025-11-05 18:05:00

头条订阅服务

GPT-4被破解 训练成本 模型架构的秘密都被挖出来了？

GPT-4被破解训练成本模型架构的秘密都被挖出来了？