• 我的订阅
  • 科技

gpt-4模型架构泄露:包含1.8万亿参数、采用混合专家模型

类别:科技 发布时间:2023-07-14 22:06:00 来源:浅语科技

外媒Semianalysis近日对OpenAI今年3月发布的GPT-4大模型进行了揭秘,其中包括GPT-4模型架构、训练和推理的基础设施、参数量、训练数据集、token数、成本、混合专家模型(MixtureofExperts)等具体的参数和信息。

gpt-4模型架构泄露:包含1.8万亿参数、采用混合专家模型

▲图源 Semianalysis

外媒表示,GPT-4在120层中总共包含了1.8万亿参数,而GPT-3只有约1750亿个参数。而为了保持合理的成本,OpenAI采用混合专家模型来进行构建。

注:混合专家模型(MixtureofExperts)是一种神经网络,该系统根据数据进行分离训练多个模型,在各模型输出后,系统将这些模型整合输出为一个单独的任务。

gpt-4模型架构泄露:包含1.8万亿参数、采用混合专家模型

▲图源 Semianalysis

据悉,GPT-4使用了16个混合专家模型(mixtureofexperts),每个有1110亿个参数,每次前向传递路由经过两个专家模型。

此外,它有550亿个共享注意力参数,使用了包含13万亿tokens的数据集训练,tokens不是唯一的,根据迭代次数计算为更多的tokens。

GPT-4预训练阶段的上下文长度为8k,32k版本是对8k微调的结果,训练成本相当高,外媒表示,8xH100也无法以每秒33.33个Token的速度提供所需的密集参数模型,因此训练该模型需要导致极高的推理成本,以H100物理机每小时1美元计算,那么一次的训练成本就高达6300万美元(约4.51亿元人民币)。

对此,OpenAI选择使用云端的A100GPU训练模型,将最终训练成本降至2150万美元(约1.54亿元人民币)左右,用稍微更长的时间,降低了训练成本。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-07-15 05:45:32

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

Meta发布开源大模型Llama 4:首次采用“混合专家”架构
...日),美国科技巨头Meta推出了其最强大的开源人工智能(AI)模型Llama 4,Llama 4目前有两个的版本,名为Scout和Maverick
2025-04-07 06:44:00
大模型新趋势之MoE:现状、挑战及研究方向
2024年,全球主流企业加快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合
2024-11-04 16:00:00
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...领域中,序列建模是一项至关重要的任务。然而,现有的模型在捕捉长程依赖关系和高效建模序列方面仍面临诸多挑战。因此,北京大学林宙辰、徐鑫提出了一种全新混合序列建模架构 ——Mix
2024-10-16 13:34:00
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
...而,构建一个兼具强大性能与高效运算的大规模时序预测模型始终是一个巨大的挑战。此外,高质量的大型公共时间序列数据库的匮乏进一步加剧了这一难题。近日,由来自普林斯顿大学、格里菲斯
2024-10-23 09:55:00
马斯克打脸OpenAI!全球最大模型Grok-1开源
...:林志佳马斯克(Elon Musk)真的实现了他的承诺——把大模型Grok-1开源了。钛媒体App获悉,北京时间3月18日早上
2024-03-20 13:44:00
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...东西8月21日消息,今天,微软一口气甩出3款超强轻量级模型!微软本次发布的轻量级模型系列名为Phi-3.5,适合在内存和算力受限的环境中运行
2024-08-22 09:49:00
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...之心开源社区有福了。说到做到,马斯克承诺的开源版大模型 Grok 终于来了!今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型‘Grok-1’
2024-03-18 11:51:00
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...只用1890美元、3700 万张图像,就能训练一个还不错的扩散模型。现阶段,视觉生成模型擅长创建逼真的视觉内容,然而从头开始训练这些模型的成本和工作量仍然很高
2024-07-30 09:37:00
中国最大开源MoE模型,255B参数无条件免费商用,元象发布
元象XVERSE发布中国最大MoE开源模型:XVERSE-MoE-A36B,该模型总参数255B,激活参数36B,达到100B模型性能的「跨级」跃升
2024-09-18 13:36:00
更多关于科技的资讯:
鲁网12月29日讯近日,泰安联通成功举办接入网固网专业高技能人才实操考试。以“匠心锤炼铸精兵,实战砺剑保畅通”为核心,既是对区县一线技术人员专业能力的全面检验
2025-12-29 11:04:00
爱,多一种MO式:名流MO系列以“双人体验”重塑安全套品牌价值
爱,本就没有标准答案。多一种MO式,就是多一种相爱的方式。——题记当安全套行业从“功能隐喻”迈入“关系对话”的时代,一个新的品牌公式正在被书写——不是“0
2025-12-29 14:11:00
高途大学生再创新辉煌,荣获央广网“2025 年度·大学生职业规划与就业指导领军品牌”
2025年,中国教育事业蓬勃发展,成绩斐然,在这个辞旧迎新的时刻,一年一度的央广网“声彻中国”教育年度盛典在北京隆重召开
2025-12-29 14:45:00
沿着拼多多的“数字丝路”,广东小家电走上西部餐桌
鲁网12月29日讯10年前,当张湘在佛山自家客厅打包第一批200台暖菜板时,她未曾想过,自家的产品将穿越数千公里,抵达青藏高原牧民的餐桌
2025-12-29 14:48:00
高途心理荣获央广网\
12月26日,由中央广播电视总台央广网主办的2025"声彻中国"教育年度盛典在北京广播大厦酒店隆重举行。本届盛典以“智启未来 育梦致远”为主题
2025-12-29 15:22:00
2025年新生儿奶粉好口碑产品盘点,帮宝宝选对第一口奶
新生宝宝的消化系统宛如初绽的嫩芽,娇弱又敏感,亟需细致呵护。为宝宝挑选一款安全易吸收、富含免疫因子的奶粉,对其早期发育至关重要
2025-12-29 15:22:00
vivo成为博鳌亚洲论坛2026年战略合作伙伴
2025年12月25日,vivo与博鳌亚洲论坛签约仪式在vivo总部召开,vivo正式成为博鳌亚洲论坛2026年战略合作伙伴
2025-12-29 15:22:00
为整合内部资源、凝聚合力,全力冲刺年度业务目标,近日,虎丘人保财险与苏州人保寿险、苏州人保健康联合举办交叉互动业务专项培训
2025-12-29 15:23:00
融通商服能源公司广通大厦充电站落地武汉——内部协同打造服务新标杆
近日,融通能源公司投资建设的武汉广通大厦充电站正式开业投运。作为能源公司与集团内兄弟单位深度协同的试点项目,构建起“新能源+办公”联动服务新模式
2025-12-29 15:23:00
能预防血栓的静脉曲张袜有哪些?德国迈迪医疗级推荐
一、认识静脉曲张袜:不止于舒适,更是血栓预防的医疗辅助利器静脉曲张袜并非普通的紧身袜,而是基于人体静脉生理结构设计的医疗辅助产品
2025-12-29 15:24:00
静脉曲张袜哪个品牌好?迈迪静脉曲张袜医疗级实力领衔,专业守护下肢健康
随着久坐久站人群增多、人口老龄化加剧,静脉曲张已成为高发健康问题,选择一款靠谱的静脉曲张袜至关重要。在众多品牌中,medi迈迪静脉曲张袜
2025-12-29 15:25:00
以匠心守初心 以AI助成长:高途刘薇荣获央广网“2025年度·教育匠心人物”
近日,在央广网主办的“2025年度教育盛典”中,高途国际考试中心总经理刘薇荣获央广网“2025年度·教育匠心人物”称号
2025-12-29 15:26:00
为提升新员工销售技巧与服务能力,缩短岗位适应周期,太湖人保财险利用午休时段开展“老带新”销售技巧专项培训,为新员工搭建快速成长的“快车道”
2025-12-29 15:26:00
12月21日,哈工大苏州高等研究院第二届技术成果发布和交易大会在吴中举行。吴中人保财险作为战略合作伙伴应邀参加大会。会上
2025-12-29 15:29:00
通勤路上的清晨与深夜,一份平价热餐、一杯现制暖饮,正成为都市人触手可及的“标配”。 12月25日,广深铁路列车上的一则新变化引人注目——国铁广州局首次推出便民轻餐食
2025-12-29 15:41:00