• 我的订阅
  • 科技

GPT-4参数揭秘:1.8万亿参数训练成本高达6300万美元

类别:科技 发布时间:2023-07-13 19:47:00 来源:瘦子财经

近日,OpenAI今年3月发布的GPT-4大模型的详细参数和信息被揭秘。据了解,GPT-4在120层中总共包含了1.8万亿参数,相比之下,GPT-3只有约1750亿个参数。为了保持合理的成本,OpenAI采用混合专家模型来进行构建。混合专家模型是一种神经网络,该系统根据数据进行分离训练多个模型,在各模型输出后,系统将这些模型整合输出为一个单独的任务。GPT-4使用了16个混合专家模型,每个有1110亿个参数,每次前向传递路由经过两个专家模型。此外,GPT-4有550亿个共享注意力参数,使用了包含13万亿tokens的数据集训练,tokens不是唯一的,根据迭代次数计算为更多的tokens。GPT-4预训练阶段的上下文长度为8k,32k版本是对8k微调的结果,训练成本相当高。据报道,8xH100也无法以每秒33.33个Token的速度提供所需的密集参数模型,因此训练该模型需要导致极高的推理成本,以H100物理机每小时1美元计算,那么一次的训练成本就高达6300万美元(约4.51亿元人民币)。为此,OpenAI选择使用云端的A100GPU训练模型,将最终训练成本降至2150万美元(约1.54亿元人民币)左右,用稍微更长的时间,降低了训练成本。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-07-13 21:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

gpt-4模型架构泄露:包含1.8万亿参数、采用混合专家模型
...揭秘,其中包括GPT-4模型架构、训练和推理的基础设施、参数量、训练数据集、token数、成本、混合专家模型(MixtureofExperts)等具体的参数和信息
2023-07-14 22:06:00
GPT-4被破解 训练成本 模型架构的秘密都被挖出来了?
...LANPATEL发布了一个关于GPT-4的技术信息,包括GPT-4的架构、参数数量、训练成本、训练数据集等。本篇涉及的GPT-4数据是由他们收集
2023-07-12 20:14:00
训练一次ChatGPT,“折寿”3000辆特斯拉
...长了40万倍。其中,拉高AI大模型能耗的一大要因,就是参数训练集的规模。OpenAI首席执行官SamAltman在接受公开采访时表示
2023-04-17 19:00:00
微软、英伟达纷纷押注小模型,大模型不香了?
...攀升。训练这些模型需要海量数据和数以亿计甚至万亿个参数,导致了极高的资源消耗。训练和运行LLM所需的计算能力和能源消耗令人咋舌,这使得小型组织或个人难以参与核心LLM开发。
2024-08-26 14:17:00
Yandex推出开源大语言模型训练工具,称可节省高达20%的图形处理器资源
...用量的公开可用的最有效工具,与FSDP相比,根据架构和参数数量,其速度最多可提高26%。通过使用YaFSDP缩短大型语言模型的训练时间
2024-06-18 16:13:00
微软推出ZeRO++技术,可显著减少AI大模型训练时间和成本
...练效率,同时减少训练时间和成本。▲图源微软为了减少参数通信量,ZeRO++可对权重进行量化,其利用基于块的量化方法来保持训练精度,这种优化的量化过程相对原始Zero传输技术更
2023-06-27 22:15:00
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
...活其中的一个子集(参见图 2)。这使得 MoE 比具有相似参数量的密集模型更有效,因为密集模型为每个输入激活所有参数
2024-09-06 10:01:00
大模型观察|从训练到落地金融业,大模型“升级之路”面临哪些挑战?
...领域,训练就是至关重要的一步,是一个把冰冷的数据、参数,变成有“思维”的工具关键一环。只有打好了技术的基础底座,才能让大模型拥有更成熟和精准的服务。业界常说,大模型训练有“三
2024-01-29 21:36:00
chatgpt低成本复现流程开源
...础的InstructGPT论文中,Actor和监督微调模型都使用了1750亿参数的GPT-3系列模型,Critic和奖励模型则使用了60亿参数的GPT-3系列模型
2023-02-15 15:47:00
更多关于科技的资讯:
鲁网1月19日讯近日,国家水利部正式发布《节水先进成熟适用技术设备名录(2025年)》。在此次国家级节水技术评选中,泰安市科技创新成果“双星闪耀”——东平力创科技有限公司与泰安市智慧能源科技有限公司的领先技术成功入选
2026-01-19 11:06:00
“智改数转”激活新动能 固安制造业向“新”力十足
河北新闻网讯(万倩、臧子祺、韩佳臻)近日,在固安县萨牌智能驱动技术(河北)有限公司的测试车间里,一台智能叉车正静默而精准地执行着指令
2026-01-19 11:06:00
光储直柔一体机亮相武汉工商学院
荆楚网(湖北日报网)讯(记者唐天琪 通讯员王蕾、蓝静)1月16日,一台可实现电力能源“自产、自储、自用、自调”的光储直柔一体机在武汉工商学院正式亮相
2026-01-19 12:01:00
江南时报讯 近日,苏州横扇中新智地产业园区1138KWp分布式光伏项目顺利并网发电。从方案落地到设备投运,吴江横扇供电所以“靠前对接
2026-01-19 13:05:00
重庆钢铁成功取得CRCC认证,正式进入铁路耐候钢市场
近日,重庆钢铁铁标耐候钢产品顺利通过中铁检验认证中心(CRCC)权威认证,标志着公司在该产品质量管理体系与实物质量上全面契合铁路行业严苛标准
2026-01-19 14:00:00
携手商家共拓增长新空间助力线下消费,抖音生活服务城市生态大会济南站启幕
鲁网1月19日讯1月16日,“域见美好生活·这一站济南”2026抖音生活服务城市生态大会暨北部大区年度盛典在济南召开。大会由山东省文化和旅游厅
2026-01-19 11:40:00
京东联合五大服饰品牌发布2025超级面料消费观察
你是否曾设想,一件衣物也能如“智能空调”般自动调节温度?你是否曾设想,穿过的羽绒服无需刻意清洗?你是否曾设想,冬日的保暖衣物能够自主发热
2026-01-19 11:07:00
潍坊国补正式落地,三联家电41周年店庆点燃消费热情
鲁网1月19日讯1月17日上午,潍坊市奎文区2026年家电以旧换新暨海尔年货节、三联家电41周年店庆启动仪式在三联家电东风店户外广场隆重举行
2026-01-19 11:03:00
沧州7130家企业设立首席质量官
1月13日,在沧州四星玻璃股份有限公司生产车间内,首席质量官宋小龙(左)查看自动化制瓶生产线运行情况。河北日报记者 王雅楠摄河北日报讯(记者王雅楠)沧州市大力推行企业首席质量官制度
2026-01-19 08:10:00
1月12日,在位于张家口冰雪运动装备产业园的河北米锐特气模制造有限公司厂房内,30米长的不锈钢操作台上,工人正精准划线
2026-01-19 08:14:00
中新经纬1月18日电 18日,“人民日报评论”微信号发布评论文章《人民日报评西贝关店事件:网络舆论环境不能成为企业发展的短板》
2026-01-19 08:22:00
近期,富德生命人寿枣强支公司推出一系列针对性服务举措,通过优化传统服务方式与提升智能服务便利性双管齐下,切实提升老年客户群体的金融服务体验
2026-01-19 09:33:00
近期,国家有关部门在全国范围内持续推进“AI魔改”视频专项治理行动,相关话题引发广泛关注。随着整治深入,社会讨论正从对乱象本身的集中批评
2026-01-19 10:00:00
凤凰花实验室成立 厦门发力“人工智能赋能千行百业”
凤凰花实验室启动活动现场。(集美区 供图)厦门网讯(厦门日报记者 应洁)1月17日9时许,诚毅国际商务中心直达顶楼的电梯比工作日还要繁忙
2026-01-19 08:22:00
一块小小的豆腐能蕴含多少科技力量?昨天,在杭州豆制食品有限公司2026年商业大会暨新品发布会上,“鸿光浪花”品牌发布了首款富硒豆腐
2026-01-19 07:15:00