• 我的订阅
  • 科技

GPT-4参数揭秘:1.8万亿参数训练成本高达6300万美元

类别:科技 发布时间:2023-07-13 19:47:00 来源:瘦子财经

近日,OpenAI今年3月发布的GPT-4大模型的详细参数和信息被揭秘。据了解,GPT-4在120层中总共包含了1.8万亿参数,相比之下,GPT-3只有约1750亿个参数。为了保持合理的成本,OpenAI采用混合专家模型来进行构建。混合专家模型是一种神经网络,该系统根据数据进行分离训练多个模型,在各模型输出后,系统将这些模型整合输出为一个单独的任务。GPT-4使用了16个混合专家模型,每个有1110亿个参数,每次前向传递路由经过两个专家模型。此外,GPT-4有550亿个共享注意力参数,使用了包含13万亿tokens的数据集训练,tokens不是唯一的,根据迭代次数计算为更多的tokens。GPT-4预训练阶段的上下文长度为8k,32k版本是对8k微调的结果,训练成本相当高。据报道,8xH100也无法以每秒33.33个Token的速度提供所需的密集参数模型,因此训练该模型需要导致极高的推理成本,以H100物理机每小时1美元计算,那么一次的训练成本就高达6300万美元(约4.51亿元人民币)。为此,OpenAI选择使用云端的A100GPU训练模型,将最终训练成本降至2150万美元(约1.54亿元人民币)左右,用稍微更长的时间,降低了训练成本。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-07-13 21:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

gpt-4模型架构泄露:包含1.8万亿参数、采用混合专家模型
...揭秘,其中包括GPT-4模型架构、训练和推理的基础设施、参数量、训练数据集、token数、成本、混合专家模型(MixtureofExperts)等具体的参数和信息
2023-07-14 22:06:00
GPT-4被破解 训练成本 模型架构的秘密都被挖出来了?
...LANPATEL发布了一个关于GPT-4的技术信息,包括GPT-4的架构、参数数量、训练成本、训练数据集等。本篇涉及的GPT-4数据是由他们收集
2023-07-12 20:14:00
训练一次ChatGPT,“折寿”3000辆特斯拉
...长了40万倍。其中,拉高AI大模型能耗的一大要因,就是参数训练集的规模。OpenAI首席执行官SamAltman在接受公开采访时表示
2023-04-17 19:00:00
微软、英伟达纷纷押注小模型,大模型不香了?
...攀升。训练这些模型需要海量数据和数以亿计甚至万亿个参数,导致了极高的资源消耗。训练和运行LLM所需的计算能力和能源消耗令人咋舌,这使得小型组织或个人难以参与核心LLM开发。
2024-08-26 14:17:00
Yandex推出开源大语言模型训练工具,称可节省高达20%的图形处理器资源
...用量的公开可用的最有效工具,与FSDP相比,根据架构和参数数量,其速度最多可提高26%。通过使用YaFSDP缩短大型语言模型的训练时间
2024-06-18 16:13:00
微软推出ZeRO++技术,可显著减少AI大模型训练时间和成本
...练效率,同时减少训练时间和成本。▲图源微软为了减少参数通信量,ZeRO++可对权重进行量化,其利用基于块的量化方法来保持训练精度,这种优化的量化过程相对原始Zero传输技术更
2023-06-27 22:15:00
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
...活其中的一个子集(参见图 2)。这使得 MoE 比具有相似参数量的密集模型更有效,因为密集模型为每个输入激活所有参数
2024-09-06 10:01:00
大模型观察|从训练到落地金融业,大模型“升级之路”面临哪些挑战?
...领域,训练就是至关重要的一步,是一个把冰冷的数据、参数,变成有“思维”的工具关键一环。只有打好了技术的基础底座,才能让大模型拥有更成熟和精准的服务。业界常说,大模型训练有“三
2024-01-29 21:36:00
chatgpt低成本复现流程开源
...础的InstructGPT论文中,Actor和监督微调模型都使用了1750亿参数的GPT-3系列模型,Critic和奖励模型则使用了60亿参数的GPT-3系列模型
2023-02-15 15:47:00
更多关于科技的资讯:
3月4日,上海报业集团旗下财联社、《科创板日报》 “2025中国AI+应用Top50”优秀案例正式揭晓,罗普特(股票代码
2026-03-05 11:01:00
舒爱民不想穿的衣服鞋子、有划痕的旧家具、不再喜欢的摆件、闲置的小电器……藏在街巷里的二手店铺,成了兼具温度与环保意义的消费新场景
2026-03-05 11:09:00
商报讯 曾在去年连涨三次、让众多羽毛球爱好者直呼“打不起”的羽毛球,终于迎来价格回落。自2月下旬起,以威克多、亚狮龙为首的近十个知名品牌密集宣布下调产品价格
2026-03-05 08:56:00
厦门网讯(厦门日报记者 应洁 林岑)加快推动创新链、资金链、人才链深度赋能产业链,我市持续在“链”上精准发力,以县域重点产业链作为发展县域经济的关键引擎与重要抓手
2026-03-05 09:19:00
3月3日,爱达邮轮宣布3月5日正式推出为期一个月的“2026邮轮狂欢节”,通过线上系列活动,让更多中国消费者了解邮轮旅行,推动邮轮文化的传播,助力上海乃至全国邮轮经济的高质量发展
2026-03-05 09:10:00
2月3日,由北京凯声文化传媒有限责任公司牵头起草、中国生产力学会标准化工作委员会发布的《儿童故事机》(T/CAPS 086-2026)团体标准正式出台
2026-03-05 08:08:00
杭州日报讯 开栏语杭州,金融强市、民营经济大市,发展脉动中始终跃动着两股同频共振的强劲节拍。金融如何真正赋能实体?创新产品如何精准触达
2026-03-05 06:54:00
杭州日报讯 三月潮涌,正是产业拔节之时。3月4日,2026海宁中国·国际家用纺织品(春季)博览会(以下简称“海宁家博会”)在海宁中国家纺城盛大启幕
2026-03-05 06:54:00
孙玉霞摘要:在竞争日益激烈的市场环境中,企业如何通过有效的战略选择获取并维持竞争优势,成为管理理论与实践关注的核心问题之一
2026-03-05 07:11:00
招聘旺、求职热、待遇高每日商报讯 伴随千行百业迎来“开门红”,春招也紧锣密鼓地开展中。近日,智联招聘发布《2026年春招市场行情周报》
2026-03-05 07:24:00
每日商报讯 配镜时的验光数据准不准?镜片的度数到底对不对?最近,在“3·15消费者权益保护日”来临之际,浙江省市场监管局联合杭州市市场监管局
2026-03-05 07:24:00
2月27日下午,2026年江苏省城市足球联赛(苏超)小微企业商务遴选合作抽签结果正式公布。在众多中签企业中,苏州市谷系列产业园开发有限公司脱颖而出
2026-03-05 03:13:00
“我这几件春装要上新,帮我做个视频,模特风格清新一点,背景偏户外。”2月27日,在江苏省沭阳县沭智工坊OPC社区,溪泊信息科技(江苏)有限公司总经理周倜对着电脑说出需求
2026-03-05 03:13:00
2026年GEO优化力量崛起,犀牛GEO优化如何成为众多服务商中的黑马?
进入2026年,互联网流量逻辑发生了根本性逆转。传统SEO(搜索引擎优化)的时代已经落幕,取而代之的是GEO(生成式引擎优化)
2026-03-04 22:55:00
能写提纲 能生成稿件 大皖新闻两会报道组有了智能体助手
大皖新闻讯 3月3日,大皖新闻2026年全国两会报道组抵达北京,正式开启全国两会报道工作。继2026年安徽省两会期间
2026-03-04 21:35:00