• 我的订阅
  • 科技

gpt-4模型架构泄露:包含1.8万亿参数、采用混合专家模型

类别:科技 发布时间:2023-07-14 22:06:00 来源:浅语科技

外媒Semianalysis近日对OpenAI今年3月发布的GPT-4大模型进行了揭秘,其中包括GPT-4模型架构、训练和推理的基础设施、参数量、训练数据集、token数、成本、混合专家模型(MixtureofExperts)等具体的参数和信息。

gpt-4模型架构泄露:包含1.8万亿参数、采用混合专家模型

▲图源 Semianalysis

外媒表示,GPT-4在120层中总共包含了1.8万亿参数,而GPT-3只有约1750亿个参数。而为了保持合理的成本,OpenAI采用混合专家模型来进行构建。

注:混合专家模型(MixtureofExperts)是一种神经网络,该系统根据数据进行分离训练多个模型,在各模型输出后,系统将这些模型整合输出为一个单独的任务。

gpt-4模型架构泄露:包含1.8万亿参数、采用混合专家模型

▲图源 Semianalysis

据悉,GPT-4使用了16个混合专家模型(mixtureofexperts),每个有1110亿个参数,每次前向传递路由经过两个专家模型。

此外,它有550亿个共享注意力参数,使用了包含13万亿tokens的数据集训练,tokens不是唯一的,根据迭代次数计算为更多的tokens。

GPT-4预训练阶段的上下文长度为8k,32k版本是对8k微调的结果,训练成本相当高,外媒表示,8xH100也无法以每秒33.33个Token的速度提供所需的密集参数模型,因此训练该模型需要导致极高的推理成本,以H100物理机每小时1美元计算,那么一次的训练成本就高达6300万美元(约4.51亿元人民币)。

对此,OpenAI选择使用云端的A100GPU训练模型,将最终训练成本降至2150万美元(约1.54亿元人民币)左右,用稍微更长的时间,降低了训练成本。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-07-15 05:45:32

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

Meta发布开源大模型Llama 4:首次采用“混合专家”架构
...日),美国科技巨头Meta推出了其最强大的开源人工智能(AI)模型Llama 4,Llama 4目前有两个的版本,名为Scout和Maverick
2025-04-07 06:44:00
大模型新趋势之MoE:现状、挑战及研究方向
2024年,全球主流企业加快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合
2024-11-04 16:00:00
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...领域中,序列建模是一项至关重要的任务。然而,现有的模型在捕捉长程依赖关系和高效建模序列方面仍面临诸多挑战。因此,北京大学林宙辰、徐鑫提出了一种全新混合序列建模架构 ——Mix
2024-10-16 13:34:00
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
...而,构建一个兼具强大性能与高效运算的大规模时序预测模型始终是一个巨大的挑战。此外,高质量的大型公共时间序列数据库的匮乏进一步加剧了这一难题。近日,由来自普林斯顿大学、格里菲斯
2024-10-23 09:55:00
马斯克打脸OpenAI!全球最大模型Grok-1开源
...:林志佳马斯克(Elon Musk)真的实现了他的承诺——把大模型Grok-1开源了。钛媒体App获悉,北京时间3月18日早上
2024-03-20 13:44:00
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...东西8月21日消息,今天,微软一口气甩出3款超强轻量级模型!微软本次发布的轻量级模型系列名为Phi-3.5,适合在内存和算力受限的环境中运行
2024-08-22 09:49:00
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...之心开源社区有福了。说到做到,马斯克承诺的开源版大模型 Grok 终于来了!今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型‘Grok-1’
2024-03-18 11:51:00
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...只用1890美元、3700 万张图像,就能训练一个还不错的扩散模型。现阶段,视觉生成模型擅长创建逼真的视觉内容,然而从头开始训练这些模型的成本和工作量仍然很高
2024-07-30 09:37:00
中国最大开源MoE模型,255B参数无条件免费商用,元象发布
元象XVERSE发布中国最大MoE开源模型:XVERSE-MoE-A36B,该模型总参数255B,激活参数36B,达到100B模型性能的「跨级」跃升
2024-09-18 13:36:00
更多关于科技的资讯:
2025年以来,浙江深入实施“人工智能+”行动,抢抓人工智能发展的历史性机遇,开展人工智能赋能制造业试点,加快人工智能深度赋能千行百业
2026-02-09 17:14:00
“小皖”是如何练成的?
大皖新闻讯 安徽省第十四届人民代表大会第四次会议于2月9日上午在合肥正式闭幕。省两会期间,大皖新闻人形机器人记者“小皖”成为采访现场一道独特的风景线
2026-02-09 18:44:00
《电商消费维权指数2025年度暨第四季度报告》发布 结束连续3年增长态势 回落至正常波动区间
中国消费者报报道(记者桑雪骐)2025年,我国经济总量实现新跨越。消费特别是新兴消费,是我国经济增长的重要助推器。同时
2026-02-09 14:23:00
再度蝉联茶类目第一!八马茶业与京东用十四年“泡”出一壶共赢好茶
当八马京东旗舰店在京东超级品牌周期间再次以遥遥领先的销量蝉联茶类目第一,成交用户同比增长86%,这条从古老茶园到现代都市餐桌的数字化茶路
2026-02-09 14:48:00
全家等便利店全部接入,千问免单卡能买日用百货
春节临近,2月9日千问APP提示,“免单卡”可以买年货,不仅能买盒马、天猫超市,还能购买各大连锁商超和便利店的酒水零食
2026-02-09 15:00:00
以“智”提效 向“新”而行 | 威海银行智慧服务迈上新台阶
“以前办理大额存款得去柜台排队,现在智能柜台几分钟就能办好,还能开具存单,太方便了!”近日,客户刘先生在威海银行青岛路支行体验智能服务后评价道
2026-02-09 15:27:00
制作包装瓶、注油、压盖、加提手、装箱……在益海嘉里金龙鱼集团上海工厂的食用油包装车间,一整套流程在自动化生产线上顺畅运转
2026-02-09 16:33:00
华为应用市场7.0.1.300版本更新,支持远程守护功能
近日,华为应用市场迎来7.0.1.300版本更新,新增远程守护功能,用户可通过该功能与孩子或长辈建立安全守护关系,实现远程应用安装管理
2026-02-09 16:37:00
新闻多一点|国家信创园:在这里看见未来
2月9日上午,习近平总书记来到位于北京亦庄的国家信创园,了解信息技术应用创新和北京加快建设国际科技创新中心情况。为统筹创新资源
2026-02-09 16:44:00
国货焕新迎新春,洁柔以“几代人的陪伴”切入年货消费场景
春节临近,年货市场持续升温。近日,国货品牌中顺洁柔以一抹亮眼的“洁柔红”,在全国超2100家线下商超铺开新年主题陈列,并同步在线上发起话题营销
2026-02-09 16:54:00
秦皇岛市“一品一播”直播电商活动启动
河北新闻网讯(张辉)2月8日,秦皇岛市“一品一播”直播电商暨2026年网上年货节正式启动。该活动旨在通过“一个特色产品
2026-02-09 11:21:00
“一人成军”AI实战营苏城结营 厚植创新沃土培育智能开发新锐
江南时报讯 古韵今风交融的苏州,再次成为人工智能前沿人才培养的热土。2月7日,以“一人成军”为主题的AI智能体实战训练营在苏州湾中心广场举办
2026-02-09 12:35:00
全球互连芯片“第一股”!澜起科技港交所上市!
今天(2月9日)上午9:30,铿锵锣声再次敲响了春节前“开门红”,澜起科技股份有限公司(6809.HK)成功在香港联合交易所主板挂牌上市
2026-02-09 12:38:00
降本700万!焦作为企业开出“省电良方”
大河网讯 一场“诊断”,给企业节省了约700万的用电成本。近日,国网焦作供电公司联合焦作市发改委开展“电费诊断助企惠企”专项行动
2026-02-09 13:09:00
求职新场景火爆出圈,相城区今年首场“人才夜市”吸引41家企业参与
近日,相城区首场“人才夜市”火热开市,将传统夜市的烟火气与现代招聘的精准对接巧妙融合,在轻松愉悦的氛围中搭建起企业与人才高效互动的新平台
2026-02-09 12:32:00