• 我的订阅
  • 科技

GPT-4参数揭秘:1.8万亿参数训练成本高达6300万美元

类别:科技 发布时间:2023-07-13 19:47:00 来源:瘦子财经

近日,OpenAI今年3月发布的GPT-4大模型的详细参数和信息被揭秘。据了解,GPT-4在120层中总共包含了1.8万亿参数,相比之下,GPT-3只有约1750亿个参数。为了保持合理的成本,OpenAI采用混合专家模型来进行构建。混合专家模型是一种神经网络,该系统根据数据进行分离训练多个模型,在各模型输出后,系统将这些模型整合输出为一个单独的任务。GPT-4使用了16个混合专家模型,每个有1110亿个参数,每次前向传递路由经过两个专家模型。此外,GPT-4有550亿个共享注意力参数,使用了包含13万亿tokens的数据集训练,tokens不是唯一的,根据迭代次数计算为更多的tokens。GPT-4预训练阶段的上下文长度为8k,32k版本是对8k微调的结果,训练成本相当高。据报道,8xH100也无法以每秒33.33个Token的速度提供所需的密集参数模型,因此训练该模型需要导致极高的推理成本,以H100物理机每小时1美元计算,那么一次的训练成本就高达6300万美元(约4.51亿元人民币)。为此,OpenAI选择使用云端的A100GPU训练模型,将最终训练成本降至2150万美元(约1.54亿元人民币)左右,用稍微更长的时间,降低了训练成本。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-07-13 21:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

gpt-4模型架构泄露:包含1.8万亿参数、采用混合专家模型
...揭秘,其中包括GPT-4模型架构、训练和推理的基础设施、参数量、训练数据集、token数、成本、混合专家模型(MixtureofExperts)等具体的参数和信息
2023-07-14 22:06:00
GPT-4被破解 训练成本 模型架构的秘密都被挖出来了?
...LANPATEL发布了一个关于GPT-4的技术信息,包括GPT-4的架构、参数数量、训练成本、训练数据集等。本篇涉及的GPT-4数据是由他们收集
2023-07-12 20:14:00
训练一次ChatGPT,“折寿”3000辆特斯拉
...长了40万倍。其中,拉高AI大模型能耗的一大要因,就是参数训练集的规模。OpenAI首席执行官SamAltman在接受公开采访时表示
2023-04-17 19:00:00
微软、英伟达纷纷押注小模型,大模型不香了?
...攀升。训练这些模型需要海量数据和数以亿计甚至万亿个参数,导致了极高的资源消耗。训练和运行LLM所需的计算能力和能源消耗令人咋舌,这使得小型组织或个人难以参与核心LLM开发。
2024-08-26 14:17:00
Yandex推出开源大语言模型训练工具,称可节省高达20%的图形处理器资源
...用量的公开可用的最有效工具,与FSDP相比,根据架构和参数数量,其速度最多可提高26%。通过使用YaFSDP缩短大型语言模型的训练时间
2024-06-18 16:13:00
微软推出ZeRO++技术,可显著减少AI大模型训练时间和成本
...练效率,同时减少训练时间和成本。▲图源微软为了减少参数通信量,ZeRO++可对权重进行量化,其利用基于块的量化方法来保持训练精度,这种优化的量化过程相对原始Zero传输技术更
2023-06-27 22:15:00
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
...活其中的一个子集(参见图 2)。这使得 MoE 比具有相似参数量的密集模型更有效,因为密集模型为每个输入激活所有参数
2024-09-06 10:01:00
大模型观察|从训练到落地金融业,大模型“升级之路”面临哪些挑战?
...领域,训练就是至关重要的一步,是一个把冰冷的数据、参数,变成有“思维”的工具关键一环。只有打好了技术的基础底座,才能让大模型拥有更成熟和精准的服务。业界常说,大模型训练有“三
2024-01-29 21:36:00
chatgpt低成本复现流程开源
...础的InstructGPT论文中,Actor和监督微调模型都使用了1750亿参数的GPT-3系列模型,Critic和奖励模型则使用了60亿参数的GPT-3系列模型
2023-02-15 15:47:00
更多关于科技的资讯:
2026年米兰—科尔蒂纳冬奥会开幕,奥运经济与冰雪经济红利持续释放,浙产体育用品在国际市场迎来出口热潮。杭州海关统计显示
2026-02-09 07:36:00
新闻纵深|全球最大桥面吊机在秦皇岛下线 钢铁巨人也会“绣花功夫”
阅读提示1月16日,全球最大、起重量达2300吨的智能化桥面吊机,在位于秦皇岛经济技术开发区的秦皇岛天业通联重工科技有限公司下线
2026-02-09 07:52:00
破解“会解题不会应用”!陆家街中学跨学科课程托举少年科学梦
荆楚网(湖北日报网讯)(记者齐一璇 通讯员孟灿)“这个电路能模拟高铁身份核验,用串联开关完成‘刷证+人脸识别’的双重验证
2026-02-08 14:17:00
全民健步竞逐健康大奖 \
河北新闻网讯(路雨婷)为深入开展体重管理行动,倡导全民健康生活方式,河北省数理医学学会将于近日启动"聚福同行"团队挑战赛
2026-02-08 14:23:00
无人值守的驿站,可24小时自助取件;全自动的搬运机器人,能大幅提升分拣效率。这样的智能场景,会越来越多。2月8日,市邮政管理局对今年的行业工作做出安排
2026-02-08 16:01:00
山东移动小米合作省级首店落户济宁,一站式数智服务点亮民生生活
鲁网2月8日讯2月7日,记者在济宁红星东路核心商圈看到,山东移动济宁分公司携手小米打造的全省首家深度合作标杆门店——小米之家专卖店正式开业
2026-02-08 16:50:00
山东首店落地济宁!山东移动济宁分公司红星东路“小米之家”专卖店盛大开业
鲁网2月8日讯2月7日,山东移动济宁分公司红星东路“小米之家”专卖店正式盛大开业。这是全省范围内移动与小米品牌深度合作的首家标杆门店
2026-02-08 16:51:00
闽企自主研发的人形机器人在厦完成测试
“福智”机器人在思明未来科技园进行测试。(本组图/厦门日报记者 林铭鸿 摄)“福智”机器人将进入更多的服务场景。厦门网讯(厦门日报记者 林健华)2月6日上午
2026-02-08 08:26:00
影像记录|共享赋能,平乡童车驶上产业升级路
1月13日,邢台市斗途儿童玩具有限公司工人在赶制出口东南亚的电动玩具车。1月13日,在位于平乡县的邢台泰洲智造产业园,检测中心工作人员对河北博艺玩具有限公司送检的童车开展驱动系统
2026-02-08 08:35:00
近日,工业和信息化部公布2025年度中国消费名品名单,全国共276个品牌入选。其中,浙江29个品牌入选,分别为企业品牌18个
2026-02-08 07:47:00
近日,市场监管总局和国家网信办联合发布《网络交易平台规则监督管理办法》(以下简称《办法》),明确禁止平台利用大数据“杀熟”
2026-02-08 00:15:00
潮起章丘,一城所向:章丘世茂广场盛大开业,开启城市商业新主场
鲁网2月7日讯2026年2月6日,中国济南——由章丘控股集团与世茂集团商业地产商娱公司(以下简称世茂商娱)联袂打造的章丘世茂广场盛大开业
2026-02-07 16:32:00
“人机协同”新模式进楼宇,顺丰同城×顺丰速运机器人配送落地南昌双子塔
近日,顺丰同城与顺丰速运携手推出楼宇机器人末端配送新业务,于2月5日率先在江西南昌标志性建筑之一南昌双子塔投入运营。双方聚焦商务楼宇等高层建筑的末端配送难点
2026-02-07 16:48:00
中国科大建立磁各向异性的普适理论
大皖新闻讯 2月7日,大皖新闻记者从中国科学技术大学获悉,该校牛谦教授与高阳教授团队在磁各向异性理论研究中取得突破。研究团队基于自旋轨道耦合的微扰展开以及自旋群的群表示
2026-02-07 12:48:00