• 我的订阅
  • 科技

GPT-4参数揭秘:1.8万亿参数训练成本高达6300万美元

类别:科技 发布时间:2023-07-13 19:47:00 来源:瘦子财经

近日,OpenAI今年3月发布的GPT-4大模型的详细参数和信息被揭秘。据了解,GPT-4在120层中总共包含了1.8万亿参数,相比之下,GPT-3只有约1750亿个参数。为了保持合理的成本,OpenAI采用混合专家模型来进行构建。混合专家模型是一种神经网络,该系统根据数据进行分离训练多个模型,在各模型输出后,系统将这些模型整合输出为一个单独的任务。GPT-4使用了16个混合专家模型,每个有1110亿个参数,每次前向传递路由经过两个专家模型。此外,GPT-4有550亿个共享注意力参数,使用了包含13万亿tokens的数据集训练,tokens不是唯一的,根据迭代次数计算为更多的tokens。GPT-4预训练阶段的上下文长度为8k,32k版本是对8k微调的结果,训练成本相当高。据报道,8xH100也无法以每秒33.33个Token的速度提供所需的密集参数模型,因此训练该模型需要导致极高的推理成本,以H100物理机每小时1美元计算,那么一次的训练成本就高达6300万美元(约4.51亿元人民币)。为此,OpenAI选择使用云端的A100GPU训练模型,将最终训练成本降至2150万美元(约1.54亿元人民币)左右,用稍微更长的时间,降低了训练成本。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-07-13 21:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

gpt-4模型架构泄露:包含1.8万亿参数、采用混合专家模型
...揭秘,其中包括GPT-4模型架构、训练和推理的基础设施、参数量、训练数据集、token数、成本、混合专家模型(MixtureofExperts)等具体的参数和信息
2023-07-14 22:06:00
GPT-4被破解 训练成本 模型架构的秘密都被挖出来了?
...LANPATEL发布了一个关于GPT-4的技术信息,包括GPT-4的架构、参数数量、训练成本、训练数据集等。本篇涉及的GPT-4数据是由他们收集
2023-07-12 20:14:00
训练一次ChatGPT,“折寿”3000辆特斯拉
...长了40万倍。其中,拉高AI大模型能耗的一大要因,就是参数训练集的规模。OpenAI首席执行官SamAltman在接受公开采访时表示
2023-04-17 19:00:00
微软、英伟达纷纷押注小模型,大模型不香了?
...攀升。训练这些模型需要海量数据和数以亿计甚至万亿个参数,导致了极高的资源消耗。训练和运行LLM所需的计算能力和能源消耗令人咋舌,这使得小型组织或个人难以参与核心LLM开发。
2024-08-26 14:17:00
Yandex推出开源大语言模型训练工具,称可节省高达20%的图形处理器资源
...用量的公开可用的最有效工具,与FSDP相比,根据架构和参数数量,其速度最多可提高26%。通过使用YaFSDP缩短大型语言模型的训练时间
2024-06-18 16:13:00
微软推出ZeRO++技术,可显著减少AI大模型训练时间和成本
...练效率,同时减少训练时间和成本。▲图源微软为了减少参数通信量,ZeRO++可对权重进行量化,其利用基于块的量化方法来保持训练精度,这种优化的量化过程相对原始Zero传输技术更
2023-06-27 22:15:00
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
...活其中的一个子集(参见图 2)。这使得 MoE 比具有相似参数量的密集模型更有效,因为密集模型为每个输入激活所有参数
2024-09-06 10:01:00
大模型观察|从训练到落地金融业,大模型“升级之路”面临哪些挑战?
...领域,训练就是至关重要的一步,是一个把冰冷的数据、参数,变成有“思维”的工具关键一环。只有打好了技术的基础底座,才能让大模型拥有更成熟和精准的服务。业界常说,大模型训练有“三
2024-01-29 21:36:00
chatgpt低成本复现流程开源
...础的InstructGPT论文中,Actor和监督微调模型都使用了1750亿参数的GPT-3系列模型,Critic和奖励模型则使用了60亿参数的GPT-3系列模型
2023-02-15 15:47:00
更多关于科技的资讯:
2025年玛咖(玛卡)品牌综合评测:如何找到适合自己体质的调理方案?
在个性化健康日益成为主流的今天,男性对保健品的需求已从“大众配方”转向“个体化方案”。玛咖作为广受关注的植物补充剂,其功效虽获认可
2025-11-04 15:47:00
可梦AI开放测试获首批企业盛赞!“短剧男频标杆”的蜜糖网络实力入驻,共启AI短剧工业化新篇
短剧行业全流程智能平台可梦AI正式开启企业测试通道,凭借“真AI驱动全链路、需求响应极速、企业服务定制化”的核心优势,迅速赢得首批入驻企业的高度认可
2025-11-04 13:50:00
CFCA安心诉存证服务,融资租赁行业的电子证据守护者
目前,融资租赁行业正在快速向数字化转型迈进,行业内线上业务的繁荣发展,使得电子数据在交易出现司法纠纷时所起到的作用愈发重要
2025-11-04 13:51:00
当年轻人开始在夏天“进补”,巨量星图如何用一场计划“养”出多个品牌破圈增长
当养生成为这届年轻人的日常,一边熬夜一边搜索“祛湿攻略”,左手冰美式右手胶原蛋白,已成为他们的生活常态。对于大健康品牌来说
2025-11-04 13:52:00
平台化协同·场景为先--中叉网对话安庆联动属具公司的高质量跃迁
2025年8月上旬,“合力改变物流搬运方式--合力•中叉网 | 2025中国叉车和移动机器人高质量发展万里行”再次走进安徽叉车集团旗下的安庆联动属具股份有限公司
2025-11-04 13:52:00
智造能力的跃升,正在成为中国品牌突破创新的底气
智造能力的跃升,正在从结构上打破「高端化」市场格局。以厨电市场为例,以往在单价8万元/㎡以上住宅项目中,进口厨电占比高达78%
2025-11-04 08:12:00
畅通京津冀算力“高速路”!河北大力推进京津冀三地网络协同、服务协同、算力资源协同
河北大力推进京津冀三地网络协同、服务协同、算力资源协同畅通京津冀算力“高速路”10月17日,在2025中国国际数字经济博览会上
2025-11-04 08:12:00
厦门网讯(厦门日报记者 李晓平)近日,省工信厅公布省级人工智能硬件优质产品名单,全省18个入选产品中,厦门独占8席,包括瑞为
2025-11-04 08:38:00
在生成式AI重构流量分配格局的2025年,中国GEO服务商市场已形成清晰的三大梯队。据《2025中国生成式AI搜索生态白皮书》数据显示
2025-11-04 08:49:00
在生成式AI重构流量分配规则的2025年,企业面临着一个核心问题:为什么同样是GEO服务,不同服务商带来的商业回报差距能高达300%以上
2025-11-04 08:50:00
厦门网讯(厦门日报记者 吴燕如 李晓平)我市再添人工智能新型孵化载体——10月31日,位于数字立方大厦的思明未来科技园正式揭牌运营
2025-11-04 09:10:00
大皖新闻讯 11月4日,星巴克咖啡公司宣布与博裕投资达成战略合作,双方将成立合资企业,共同运营星巴克在中国市场的零售业务
2025-11-04 09:31:00
在远程操控下,焦炉“四大车”(装煤车、推焦车、拦焦车、熄焦车)有条不紊地进行作业;通过设备预测性维护系统,设备的早期故障得到智能诊断……在河北新兴能源科技股份有限公司(以下简称“新兴能源科技公司”)
2025-11-04 09:01:00
“产业炬光灯”聚焦厦企笃正新能源 紧跟市场谋创新
“产业炬光灯”聚焦笃正新能源。厦门网讯(厦门日报记者 林露虹)把阳光“存”起来,变成随时可用的电能。厦门企业笃正新能源在离网光伏储能领域持续深耕
2025-11-04 08:07:00
需求释放结构升级,消费市场涌动“焕新”潮
“还有咖啡节”在玄武湖公园打造了时尚潮流集市,吸引许多市民前来消费打卡,在明媚秋光中度过惬意周末。 通讯员 常成 南京日报/紫金山新闻记者 孙中元 摄今日关注数字4
2025-11-04 07:41:00