• 我的订阅
  • 科技

GPT-4参数揭秘:1.8万亿参数训练成本高达6300万美元

类别:科技 发布时间:2023-07-13 19:47:00 来源:瘦子财经

近日,OpenAI今年3月发布的GPT-4大模型的详细参数和信息被揭秘。据了解,GPT-4在120层中总共包含了1.8万亿参数,相比之下,GPT-3只有约1750亿个参数。为了保持合理的成本,OpenAI采用混合专家模型来进行构建。混合专家模型是一种神经网络,该系统根据数据进行分离训练多个模型,在各模型输出后,系统将这些模型整合输出为一个单独的任务。GPT-4使用了16个混合专家模型,每个有1110亿个参数,每次前向传递路由经过两个专家模型。此外,GPT-4有550亿个共享注意力参数,使用了包含13万亿tokens的数据集训练,tokens不是唯一的,根据迭代次数计算为更多的tokens。GPT-4预训练阶段的上下文长度为8k,32k版本是对8k微调的结果,训练成本相当高。据报道,8xH100也无法以每秒33.33个Token的速度提供所需的密集参数模型,因此训练该模型需要导致极高的推理成本,以H100物理机每小时1美元计算,那么一次的训练成本就高达6300万美元(约4.51亿元人民币)。为此,OpenAI选择使用云端的A100GPU训练模型,将最终训练成本降至2150万美元(约1.54亿元人民币)左右,用稍微更长的时间,降低了训练成本。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-07-13 21:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

gpt-4模型架构泄露:包含1.8万亿参数、采用混合专家模型
...揭秘,其中包括GPT-4模型架构、训练和推理的基础设施、参数量、训练数据集、token数、成本、混合专家模型(MixtureofExperts)等具体的参数和信息
2023-07-14 22:06:00
GPT-4被破解 训练成本 模型架构的秘密都被挖出来了?
...LANPATEL发布了一个关于GPT-4的技术信息,包括GPT-4的架构、参数数量、训练成本、训练数据集等。本篇涉及的GPT-4数据是由他们收集
2023-07-12 20:14:00
训练一次ChatGPT,“折寿”3000辆特斯拉
...长了40万倍。其中,拉高AI大模型能耗的一大要因,就是参数训练集的规模。OpenAI首席执行官SamAltman在接受公开采访时表示
2023-04-17 19:00:00
微软、英伟达纷纷押注小模型,大模型不香了?
...攀升。训练这些模型需要海量数据和数以亿计甚至万亿个参数,导致了极高的资源消耗。训练和运行LLM所需的计算能力和能源消耗令人咋舌,这使得小型组织或个人难以参与核心LLM开发。
2024-08-26 14:17:00
Yandex推出开源大语言模型训练工具,称可节省高达20%的图形处理器资源
...用量的公开可用的最有效工具,与FSDP相比,根据架构和参数数量,其速度最多可提高26%。通过使用YaFSDP缩短大型语言模型的训练时间
2024-06-18 16:13:00
微软推出ZeRO++技术,可显著减少AI大模型训练时间和成本
...练效率,同时减少训练时间和成本。▲图源微软为了减少参数通信量,ZeRO++可对权重进行量化,其利用基于块的量化方法来保持训练精度,这种优化的量化过程相对原始Zero传输技术更
2023-06-27 22:15:00
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
...活其中的一个子集(参见图 2)。这使得 MoE 比具有相似参数量的密集模型更有效,因为密集模型为每个输入激活所有参数
2024-09-06 10:01:00
大模型观察|从训练到落地金融业,大模型“升级之路”面临哪些挑战?
...领域,训练就是至关重要的一步,是一个把冰冷的数据、参数,变成有“思维”的工具关键一环。只有打好了技术的基础底座,才能让大模型拥有更成熟和精准的服务。业界常说,大模型训练有“三
2024-01-29 21:36:00
chatgpt低成本复现流程开源
...础的InstructGPT论文中,Actor和监督微调模型都使用了1750亿参数的GPT-3系列模型,Critic和奖励模型则使用了60亿参数的GPT-3系列模型
2023-02-15 15:47:00
更多关于科技的资讯:
像导游一样的前台、会直播的销售 去酒店上班,也要懂自媒体运营
今年,杭州的酒店屡上热搜,先是酒店外摆卖美食,再是40元打包酒店自助餐……那些“第一个吃螃蟹”的酒店借着流量火了一波,证实了酒店在公域耕耘的重要性
2025-12-29 08:42:00
解码当下流行文化:腾讯QQ流行文化观察(2025)
卷首语从通讯工具到数字生活空间当我们在2025年审视QQ,看到的早已不是一个简单的即时通讯应用。它更像一座自然形成的数字城市
2025-12-29 08:43:00
“数据合规与保护专业能力评价”首次考试圆满举行
2025年12月27日,由中国计算机行业协会主办的“数据合规与保护专业能力评价”首次考试顺利举行,作为国内第一个数据合规领域的标准化能力评价考试
2025-12-29 09:13:00
中新经纬12月29日电 据韩联社报道,韩国电商巨头酷澎(Coupang)创始人、其美国母公司酷澎Inc.董事会主席金范锡(音)12月28日就近期引起广泛关注的用户信息外泄事件首次公开致歉
2025-12-29 10:16:00
2025年,兴业银行石家庄分行以“安愉人生”养老金融服务品牌为核心,围绕“生态构建、服务升级、安全守护”三大维度发力,全方位推进养老金融高质量发展
2025-12-29 10:29:00
做用户信赖的智家服务守护者——记泰安联通岱岳分公司夏张营业部王景峰
鲁网12月29日讯泰安联通岱岳夏张营业部智家工程师王景峰,坚守装维服务一线,以精益求精的服务态度、扎实过硬的专业能力,成为用户口中“信得过
2025-12-29 11:02:00
预计年产值20亿元!杭州新开工项目,2028年投用!
近日,杭州赋厨人工智能产业发展有限公司新建AI+智能厨电研发及生产项目正式开工建设。据悉,该项目位于杭州富春湾新城,总投资10亿元
2025-12-29 08:11:00
RUA RUA PANDA大熊猫主题全球巡展伦敦站期间,来自德国、法国、荷兰的粉丝专程“打飞的”到Bamboo Zoo快闪店抢购侦探熊猫
2025-12-29 07:40:00
中新经纬12月27日电 据“网信中国”微信号,27日,国家互联网信息办公室起草了《人工智能拟人化互动服务管理暂行办法(征求意见稿)》
2025-12-28 09:18:00
杭州发放10000张无门槛停车券!今天开抢
好消息:2025年12月28日至2026年1月3日,连续7天,“杭州停车”微信小程序将每天放出停车优惠券,总计10000张
2025-12-28 11:45:00
以安全智造引领行业高质量发展
坐落于青岛胶州市上合示范区的海尔上合冰箱互联一工厂,是海尔自创立以来在全球投资最大、智能化程度最高、产业链配套最完整、生态体系最健全的安全生产标杆项目
2025-12-28 15:05:00
永辉南京首家胖东来模式新店落户江宁宝龙,万达茂店焕新压轴开业
岁末钟声渐近,金陵城中,两处商业地标正悄然点亮品质生活的新图景。12月29日,永辉超市南京江宁宝龙广场店将盛大开业,这是永辉在南京全新开设的首家胖东来模式门店
2025-12-28 21:29:00
AIGC视听产业人才新生态大会在京举办
中国青年报客户端讯(中青报·中青网记者余冰玥)12月27日,2025首创郎园AIGC视听产业人才新生态大会在北京举办。面对AI创作人才日益年轻化
2025-12-28 21:31:00
国际热核聚变实验堆ITER计划校正场线圈采购包任务在合肥竣工交付
大皖新闻讯 12月28日,由中国科学院合肥物质科学研究院等离子体物理研究所(以下简称合肥物质院等离子体所)承担的国际热核聚变实验堆ITER计划校正场线圈采购包圆满完成全部的制造任务
2025-12-28 15:14:00
江南时报讯 12月27日,以“智赋江苏,聚势腾飞”为主题的2025江苏省人工智能产业发展大会在南京举行。大会设置江苏“人工智能+”创新成果展区
2025-12-28 21:23:00