• 我的订阅
  • 财经

马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放

类别:财经 发布时间:2024-03-18 11:51:00 来源:和讯网

作者:机器之心

开源社区有福了。

说到做到,马斯克承诺的开源版大模型 Grok 终于来了!

今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型‘Grok-1’,以及该模型的权重和网络架构。

这也使得Grok-1成为当前参数量最大的开源大语言模型。

马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放

封面图根据 Grok 提示使用 Midjourney 生成的:神经网络的 3D 插图,具有透明节点和发光连接,以不同粗细和颜色的连接线展示不同的权重。

这个时候,马斯克当然不会忘了嘲讽 OpenAI 一番,‘我们想了解更多 OpenAI 的开放部分’。

马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放

回到模型本身,Grok-1 从头开始训练,并且没有针对任何特定应用(如对话)进行微调。相对的,在 X(原 Twitter)上可用的 Grok 大模型是微调过的版本,其行为和原始权重版本并不相同。

Grok-1 的模型细节包括如下:

xAI 遵守 Apache 2.0 许可证来开源 Grok-1 的权重和架构。Apache 2.0 许可证允许用户自由地使用、修改和分发软件,无论是个人还是商业用途。项目发布短短四个小时,已经揽获 3.4k 星标,热度还在持续增加。

马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放

该存储库包含用于加载和运行 Grok-1 开放权重模型的 JAX 示例代码。使用之前,用户需要确保先下载 checkpoint,并将 ckpt-0 目录放置在 checkpoint 中, 然后,运行下面代码进行测试:

项目说明中明确强调,由于 Grok-1 是一个规模较大(314B 参数)的模型,因此需要有足够 GPU 内存的机器才能使用示例代码测试模型。此外,该存储库中 MoE 层的实现效率并不高,之所以选择该实现是为了避免需要自定义内核来验证模型的正确性。

用户可以使用 Torrent 客户端和这个磁力链接来下载权重文件:

看到这,有网友开始好奇 314B 参数的 Grok-1 到底需要怎样的配置才能运行。对此有人给出答案:可能需要一台拥有 628 GB GPU 内存的机器(每个参数 2 字节)。这么算下来,8xH100(每个 80GB)就可以了。

马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放

知名机器学习研究者、《Python 机器学习》畅销书作者 Sebastian Raschka 评价道:‘Grok-1 比其他通常带有使用限制的开放权重模型更加开源,但是它的开源程度不如 Pythia、Bloom 和 OLMo,后者附带训练代码和可复现的数据集。’

马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放

DeepMind 研究工程师 Aleksa Gordié 则预测,Grok-1 的能力应该比 LLaMA-2 要强,但目前尚不清楚有多少数据受到了污染。另外,二者的参数量也不是一个量级。

马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放

还有一位推特用户 @itsandrewgao 详细分析了 Grok-1 的架构细节,并做出了一下几点总结。

马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放

首先 Grok-1 是 8 个专家的混合(2个活跃)、860亿激活参数(比Llama-2 70B还多),使用旋转嵌入而非固定位置嵌入。

马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放

tokenizer 词汇大小为 131,072(类似于 GPT-4)2^17,嵌入大小 6,144 (48*128),64 个 transformer 层(sheesh), 每层都有一个解码器层:多头注意力块和密集块,键值大小 128。

马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放

多头注意力块:48 个 head 用于查询,8 个用于键 / 值(KV)。KV 大小为 128。密集块(密集前馈块):加宽因子 8,隐藏层大小 32768。每个 token 从 8 个专家中选择 2 个。

马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放

旋转位置嵌入大小为 6144,与输入嵌入大小相同。上下文长度为 8192 tokens,精度为 bf16。

马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放

此外还提供了一些权重的 8bit 量化内容。

马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放

当然,我们还是希望 xAI 官方能够尽快公布 Grok-1 的更多模型细节。

Grok-1 是个什么模型?能力如何?

Grok 是马斯克 xAI 团队去年 11 月推出的一款大型语言模型。在去年 11 月的官宣博客中(参见《马斯克 xAI 公布大模型详细进展,Grok 只训练了 2 个月》), xAI 写道:

Grok 是一款仿照《银河系漫游指南》设计的 AI,可以回答几乎任何问题,更难能可贵的是,它甚至可以建议你问什么问题!

Grok 在回答问题时略带诙谐和叛逆,因此如果你讨厌幽默,请不要使用它!

Grok 的一个独特而基本的优势是,它可以通过 X 平台实时了解世界。它还能回答被大多数其他 AI 系统拒绝的辛辣问题。

Grok 仍然是一个非常早期的测试版产品 —— 这是我们通过两个月的训练能够达到的最佳效果 —— 因此,希望在您的帮助下,它能在测试中迅速改进。

xAI 表示,Grok-1 的研发经历了四个月。在此期间,Grok-1 经历了多次迭代。

在公布了 xAI 创立的消息之后,他们训练了一个 330 亿参数的 LLM 原型 ——Grok-0。这个早期模型在标准 LM 测试基准上接近 LLaMA 2 (70B) 的能力,但只使用了一半的训练资源。之后,他们对模型的推理和编码能力进行了重大改进,最终开发出了 Grok-1,这是一款功能更为强大的 SOTA 语言模型,在 HumanEval 编码任务中达到了 63.2% 的成绩,在 MMLU 中达到了 73%。

xAI 使用了一些旨在衡量数学和推理能力的标准机器学习基准对 Grok-1 进行了一系列评估:

马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放

在这些基准测试中,Grok-1 显示出了强劲的性能,超过了其计算类中的所有其他模型,包括 ChatGPT-3.5 和 Inflection-1。只有像 GPT-4 这样使用大量训练数据和计算资源训练的模型才能超越它。xAI 表示,这展示了他们在高效训练 LLM 方面取得的快速进展。

不过,xAI 也表示,由于这些基准可以在网上找到,他们不能排除模型无意中在这些数据上进行了训练。因此,他们在收集完数据集之后,根据去年 5 月底(数据截止日期之后)公布的 2023 年匈牙利全国高中数学期末考试题,对他们的模型(以及 Claude-2 和 GPT-4 模型)进行了人工评分。结果,Grok 以 C 级(59%)通过考试,Claude-2 也取得了类似的成绩(55%),而 GPT-4 则以 68% 的成绩获得了 B 级。xAI 表示,他们没有为应对这个考试而特别准备或调整模型。

马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放

下面这个表格展示了 Grok-1 的更多信息(来自 2023 年 11 月的博客,部分信息可能存在更新):

马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放

在博客中,xAI 还公布了 Grok 的构建工程工作和 xAI 大致的研究方向。其中,长上下文的理解与检索、多模态能力都是未来将会探索的方向之一。

xAI 表示,他们打造 Grok 的愿景是,希望创造一些 AI 工具,帮助人类寻求理解和知识。

具体来说,他们希望达到以下目标:

他们的最终目标是让他们的 AI 工具帮助人们寻求理解。

在 X 平台上,Grok-1 的开源已经引发了不少讨论。值得注意的是,技术社区指出,该模型在前馈层中使用了 GeGLU,并采用了有趣的 sandwich norm 技术进行归一化。甚至 OpenAI 的员工也发帖表示对该模型很感兴趣。

马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放

不过,开源版 Grok 目前还有些事情做不到,比如‘通过 X 平台实时了解世界’,实现这一功能目前仍需要订阅部署在 X 平台上的付费版本。

鉴于马斯克对开源的积极态度,有些技术人员已经在期待后续版本的开源了。

马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放

文章来源:机器之心

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-03-18 15:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

“言出必行”马斯克,全球最大开源模型Grok真的来了
...的 Grok,一举拿下迄今为止“全球最大开源模型”称号。马斯克又搞了个全球第一。Grok开源美东时间3月17日,xAI 正式宣布开源大模型Grok-1的权重和网络架构
2024-03-18 11:50:00
马斯克打脸OpenAI!全球最大模型Grok-1开源
本文经授权转载自钛媒体(ID:taimeiti)作者:林志佳马斯克(Elon Musk)真的实现了他的承诺——把大模型Grok-1开源了
2024-03-20 13:44:00
XAI大模型Grok-1已正式开源 但并不是在马斯克说的上周
【TechWeb】3月18日消息,据外媒报道,马斯克领导的人工智能公司xAI当地时间周日在官网宣布,他们的大语言模型Grok-1已正式开源
2024-03-18 20:19:00
马斯克旗下人工智能大模型Grok已正式开源
鞭牛士报道,3月18日消息,据外电报道,埃隆·马斯克 (Elon Musk) 的人工智能初创公司 xAI 迈出了重大一步
2024-03-18 09:57:00
估值180亿美元,马斯克造了一家“AI独角兽”
...一天文数字。而xAI才仅仅成立不到一年的时间,它无疑是马斯克的又一个“造富神话”。根据有关消息,考虑参与此轮融资的投资方包括风投公司Gigafund和投资人Steve Jurvetson
2024-04-10 11:26:00
马斯克官宣Grok-2测试版!xAI将继续拥抱开源路线吗?
继旗下xAI公司宣布正式开源大模型Grok-1后,特斯拉CEO马斯克再次在大模型市场扔下一颗重磅炸弹。当地时间8月11日晚
2024-08-13 09:50:00
中国最大开源MoE模型,255B参数无条件免费商用,元象发布
...个原因,行业前沿模型包括谷歌Gemini-1.5、OpenAI的GPT-4 、马斯克旗下xAI公司的Grok等大模型都使用了 MoE
2024-09-18 13:36:00
年少财富自由,拒绝过盖茨、马斯克、奥特曼,传奇程序员的AGI之路
...CTO,一年后原地飞升,被Meta 20亿美金收购。作为拒绝过马斯克、盖茨、乔布斯、山姆•奥特曼的男人,AGI 时代
2024-07-16 16:00:00
马斯克要求OpenAI恢复开源,背后是开源闭源路线之争
马斯克起诉OpenAI事件已经发酵了一周。3月7日,马斯克在推特上称,如果OpenAI把名字改为ClosedAI他就撤销诉讼
2024-03-09 22:51:00
更多关于财经的资讯:
何本辉获批担任黄梅中银富登董事长
2月13日,国家金融监督管理总局黄冈监管分局发布关于何本辉黄梅中银富登董事长任职资格的批复,核准何本辉黄梅中银富登村镇银行有限公司董事长的任职资格。
2026-02-13 11:09:00
“聚势谋新局 赋能启新程”河南资本集团召开2026年度工作会议
大河网讯 2月12日,河南资本集团第一届职工代表大会第三次会议暨2026年工作会议在郑州圆满召开。会议听取并审议有关工作报告
2026-02-13 10:40:00
相关贷款业务管理不审慎等,交通银行重庆市分行被罚190万元
2月12日,国家金融监督管理总局重庆监管局行政处罚信息公示列表显示,交通银行股份有限公司重庆市分行,相关贷款业务管理不审慎,相关票据业务、信用证业务审查不审慎,被罚款190万元;
2026-02-13 10:53:00
违规办理票据业务等,中信银行南宁分行被罚款110万元
2月13日,国家金融监督管理总局广西监管局行政处罚信息公开表(桂金罚决字〔2026〕10-11号)显示,中信银行股份有限公司南宁分行
2026-02-13 10:55:00
朗坤科技成立健康科技公司,含AI相关业务
近日,健小象健康科技(深圳)有限公司成立,注册资本1000万元,经营范围包含:人体基因诊断与治疗技术开发;人工智能行业应用系统集成服务;人工智能理论与算法软件开发等。企查查股权穿
2026-02-13 11:00:00
贝特瑞在云南成立绿色能源新公司
近日,贝特瑞绿色能源(云南)有限公司成立,注册资本2000万元,经营范围包含:太阳能发电技术服务;储能技术服务;集中式快速充电站;电动汽车充电基础设施运营等。企查查股权穿透显示,
2026-02-13 11:00:00
平治信息成立智算科技公司,含AI业务
近日,杭州平治智算科技有限公司成立,注册资本1000万元,经营范围包含:信息系统集成服务;计算机软硬件及外围设备制造;人工智能硬件销售;计算器设备制造;计算器设备销售等。企查查股
2026-02-13 11:00:00
特锐德在广东成立供应链管理新公司
近日,广东横琴特锐德供应链管理有限公司成立,注册资本5000万元,经营范围包含:新能源汽车换电设施销售;先进电力电子装置销售;电气设备销售;货物进出口等。企查查股权穿透显示,该公
2026-02-13 11:00:00
中国海油、悦达投资等成立海上风电公司
近日,中海油(盐城)海上风电有限公司成立,经营范围包含:海上风电相关系统研发;发电技术服务;太阳能发电技术服务;风力发电技术服务等
2026-02-13 11:00:00
中兴通讯、源杰科技等在陕西新设股权投资合伙企业
近日,陕西建兴湛卢股权投资合伙企业(有限合伙)成立,出资额3亿元,经营范围包含:以私募基金从事股权投资、投资管理、资产管理等活动。企查查股权穿透显示,该企业由中兴通讯(00006
2026-02-13 11:00:00
2月11日,国家统计局杭州调查队发布2026年1月份物价运行情况。数据显示,当月全市居民消费价格温和上涨,工业生产者出厂价格虽同比略有下降
2026-02-13 06:30:00
根据《财政部关于2026年彩票市场休市安排的公告》,福利彩票2026年春节休市10天,时间为2026年2月14日0:00至2月23日24:00
2026-02-13 07:31:00
中新网烟台2月12日电 当直径仅2.6毫米的彩色塑料豆在镊尖被精准排列,一种融合传统年味与青春创意的新春仪式正在全国多地的手作空间与网络社群中兴起
2026-02-13 07:31:00
2月12日晚间,福达合金材料股份有限公司(下称“福达合金”,股票代码:603045)发布公告称,控股股东王达武因自身资金需求
2026-02-12 23:53:00
2026年2月12日晚间,新亚制程(浙江)股份有限公司(下称“新亚制程”,股票代码:002388)发布公告称,公司董事会于近日收到财务总监陈多佳女士递交的辞职报告
2026-02-12 23:53:00