• 我的订阅
  • 科技

gpt-4模型架构泄露:包含1.8万亿参数、采用混合专家模型

类别:科技 发布时间:2023-07-14 22:06:00 来源:浅语科技

外媒Semianalysis近日对OpenAI今年3月发布的GPT-4大模型进行了揭秘,其中包括GPT-4模型架构、训练和推理的基础设施、参数量、训练数据集、token数、成本、混合专家模型(MixtureofExperts)等具体的参数和信息。

gpt-4模型架构泄露:包含1.8万亿参数、采用混合专家模型

▲图源 Semianalysis

外媒表示,GPT-4在120层中总共包含了1.8万亿参数,而GPT-3只有约1750亿个参数。而为了保持合理的成本,OpenAI采用混合专家模型来进行构建。

注:混合专家模型(MixtureofExperts)是一种神经网络,该系统根据数据进行分离训练多个模型,在各模型输出后,系统将这些模型整合输出为一个单独的任务。

gpt-4模型架构泄露:包含1.8万亿参数、采用混合专家模型

▲图源 Semianalysis

据悉,GPT-4使用了16个混合专家模型(mixtureofexperts),每个有1110亿个参数,每次前向传递路由经过两个专家模型。

此外,它有550亿个共享注意力参数,使用了包含13万亿tokens的数据集训练,tokens不是唯一的,根据迭代次数计算为更多的tokens。

GPT-4预训练阶段的上下文长度为8k,32k版本是对8k微调的结果,训练成本相当高,外媒表示,8xH100也无法以每秒33.33个Token的速度提供所需的密集参数模型,因此训练该模型需要导致极高的推理成本,以H100物理机每小时1美元计算,那么一次的训练成本就高达6300万美元(约4.51亿元人民币)。

对此,OpenAI选择使用云端的A100GPU训练模型,将最终训练成本降至2150万美元(约1.54亿元人民币)左右,用稍微更长的时间,降低了训练成本。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-07-15 05:45:32

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

Meta发布开源大模型Llama 4:首次采用“混合专家”架构
...日),美国科技巨头Meta推出了其最强大的开源人工智能(AI)模型Llama 4,Llama 4目前有两个的版本,名为Scout和Maverick
2025-04-07 06:44:00
大模型新趋势之MoE:现状、挑战及研究方向
2024年,全球主流企业加快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合
2024-11-04 16:00:00
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...领域中,序列建模是一项至关重要的任务。然而,现有的模型在捕捉长程依赖关系和高效建模序列方面仍面临诸多挑战。因此,北京大学林宙辰、徐鑫提出了一种全新混合序列建模架构 ——Mix
2024-10-16 13:34:00
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
...而,构建一个兼具强大性能与高效运算的大规模时序预测模型始终是一个巨大的挑战。此外,高质量的大型公共时间序列数据库的匮乏进一步加剧了这一难题。近日,由来自普林斯顿大学、格里菲斯
2024-10-23 09:55:00
马斯克打脸OpenAI!全球最大模型Grok-1开源
...:林志佳马斯克(Elon Musk)真的实现了他的承诺——把大模型Grok-1开源了。钛媒体App获悉,北京时间3月18日早上
2024-03-20 13:44:00
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...东西8月21日消息,今天,微软一口气甩出3款超强轻量级模型!微软本次发布的轻量级模型系列名为Phi-3.5,适合在内存和算力受限的环境中运行
2024-08-22 09:49:00
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...之心开源社区有福了。说到做到,马斯克承诺的开源版大模型 Grok 终于来了!今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型‘Grok-1’
2024-03-18 11:51:00
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...只用1890美元、3700 万张图像,就能训练一个还不错的扩散模型。现阶段,视觉生成模型擅长创建逼真的视觉内容,然而从头开始训练这些模型的成本和工作量仍然很高
2024-07-30 09:37:00
中国最大开源MoE模型,255B参数无条件免费商用,元象发布
元象XVERSE发布中国最大MoE开源模型:XVERSE-MoE-A36B,该模型总参数255B,激活参数36B,达到100B模型性能的「跨级」跃升
2024-09-18 13:36:00
更多关于科技的资讯:
PureblueAI清蓝完成数千万元天使轮融资,发布首款AI口碑营销数字员工
近日,国内AI营销技术服务公司PureblueAI清蓝正式宣布完成数千万元人民币天使轮融资。本轮融资由祥峰中国(Vertex China)领投
2026-03-04 14:03:00
舒尔推出SLX-D+无线系统:专业人士信赖之选,面向广大用户精心打造
扩展功能全面升级,为这款备受信赖的无线产品系列注入了全国范围的部署实力、便捷的远程管理能力,以及高效的反馈抑制技术舒尔公司全新推出了SLX-D+无线系统
2026-03-04 14:04:00
鲁网3月4日讯(记者 杜方奇)近日,记者走进山东省枣庄市池明生物科技有限公司(以下简称“池明生物”),实地感受这家本土日化标杆企业的发展现状——智能化生产车间内
2026-03-04 12:19:00
全国政协委员陈仙辉:建议以超导技术破解AI数据中心能耗难题
大皖新闻讯 “人工智能数据中心正朝着百兆瓦、吉瓦量级迈进,传统技术路线已难以为继,高温超导技术是破局能耗问题的关键方向
2026-03-04 13:36:00
全国政协委员陆铭:千问春节下单近2亿次,证明“AI+消费”巨大潜力
全国两会召开之际,如何进一步释放内需潜力成为各界关注焦点。全国政协委员、著名经济学家陆铭在接受记者采访时表示,春节期间用户在千问上“一句话下单”近2亿次
2026-03-04 11:40:00
山东移动滨州分公司:科技赋韵千年曲会 匠心护航文化传承
鲁网3月4日讯弦鼓传古韵,5G 润乡音。2026 年 2 月 28 日,胡集书会在滨州惠民正式启幕。滨州移动以“科技赋能
2026-03-04 11:07:00
鲁网3月4日讯在AI创业浪潮下,市南区聚焦OPC单人AI创业服务,打造高效、暖心的OPC注册环境,激发个体AI创业活力
2026-03-04 10:31:00
中国网3月4日讯 据国家安全部微信公众号消息,“【电子发票】张某某先生,您的发票已开好,请点击下载”——当收件箱弹出这类带着你真实姓名的电子邮件
2026-03-04 07:58:00
玉磊 柳州工学院一、人工智能在财务报表分析中的应用现状人工智能技术在财务报表分析中的首次应用,源于自然语言处理(NLP)和机器学习(ML)的发展
2026-03-04 07:08:00
金皓摘要:异常检测作为数据分析和智能系统中的重要研究方向,广泛应用于金融风控、工业监测、网络安全和医疗诊断等领域。传统统计方法和近年来快速发展的深度学习方法
2026-03-04 07:08:00
烟台联通圆满完成2026“百花汇海”山东秧歌会通信保障
胶东在线3月3日讯3月1日,由山东省文学艺术界联合会等单位指导主办的2026“百花汇海”山东秧歌会在烟台海阳市河清岛体育场盛大举行
2026-03-03 20:29:00
涌金楼丨浙江经济第一区确立“首要任务”
余杭“十四五”五年成绩单。受访者供图3月2日,余杭区召开经济高质量发展大会。这是余杭连续第五年以“高质量发展”为题召开大会
2026-03-03 22:27:00
江南时报讯 凌晨2点,扬子江数字视听产业园的“短剧公寓”里,张弛仍然坐在电脑前,屏幕上是他十多个海外短视频账号的数据反馈——当天发布的97条短剧切片
2026-03-03 22:48:00
河北特色产业集群数字金融平台助力解决企业融资难银企互联 点“数”成金“通过平台提供的‘数字信用’,仅用5天我们就拿到了1700万元的授信贷款
2026-03-03 17:55:00