我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

美欧亚三洲开发者联手,全球首个组团训练的大模型,全流程开源

类别：科技发布时间：2024-12-03 13:34:00 来源：机器之心Pro

11 月 22 日，Prime Intellect 宣布通过去中心化方式训练完成了一个 10B 模型。30 号，他们开源了一切，包括基础模型、检查点、后训练模型、数据、PRIME 训练框架和技术报告。据了解，这应该是有史以来首个以去中心化形式训练得到的 10B 大模型。

技术报告：https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf Hugging Face 页面：https://huggingface.co/PrimeIntellect/INTELLECT-1-Instruct GitHub 地址：https://github.com/PrimeIntellect-ai/prime 体验链接：chat.primeintellect.ai

Prime Intellect 表示，相比此前的研究，INTELLECT-1 实现了 10 倍的规模提升。这一突破证明，大规模模型训练已不再是大公司的专利，通过去中心化的、社区驱动的方式同样可以实现。

他们的下一步计划是将模型进一步扩展到前沿规模，最终目标是实现开源 AGI。这一点在其在线 Demo 的模型选项中已有暗示 —— 其中包含开放推理模型甚至 AGI 和 ASI 的潜在选项。看起来这确实是一个雄心勃勃的团队。

模型发布后，虽也有质疑声音，但 AI 社区总体上还是给出了非常积极的肯定。

机器之心也用几个经典问题简单尝试了其在线 Demo 版本的模型。

首先是经典的草莓问题，INTELLECT-1 一开始答对了，但继续提问就又变成了常见的错误答案。

该模型也具备还不错的文本理解能力，但总体而言和 Llama 和 Qwen 等前沿开源模型还有所差距。

下面我们看看它的汉语能力。从多次测试的结果来看，这个模型的汉语能力并不好，并且幻觉现象似乎也挺严重的，比如下图中，即使该模型暂时并不具备读取链接的能力，也会根据上下文强行作答。

不管怎样，INTELLECT-1 都是 AI 历史上一次颇具开创性的实验。下面我们就来看看这个系统是如何炼成的。

大规模去中心化训练

Prime Intellect 的这场去中心化训练的规模其实相当大，涉及到 3 个大洲的 5 个国家，同时运行了 112 台 H100 GPU。

全球 30 位贡献者的基本信息

该团队表示：「我们在各大洲实现了 83% 的总体计算利用率。当仅在分布于整个美国的节点上进行训练时，实现了 96% 的计算利用率。与中心化训练方法相比，开销极小。」

这样的结果表明 INTELLECT-1 在存在严重的带宽限制和节点波动的情况下，依然能维持训练收敛性和高计算利用率，这昭示了一种新的可能性：能够以去中心化、社区驱动的方式训练出前沿的基础模型！

一万亿 token 的训练过程，这里给出了训练过程中损失、困惑度、训练速度等信息

训练细节与数据集

INTELLECT-1 基于 Llama-3 架构，它包含：

42 层，隐藏维度为 4,096 32 个注意力头序列长度为 8,192 词表大小为 128,256

模型在经过精心筛选的 1 万亿 token 数据集上训练，数据构成如下：

数据集 Huggingface 链接：https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu

55% FineWeb-Edu 20% Stack v2（Stack Overflow 等技术问答数据） 10% FineWeb（精选网页数据） 10% DCLM-baseline（基准通用语料） 5% OpenWebMath（数学数据）

模型训练持续了 42 天，采用了以下技术：

采用 WSD 动态调整学习速度，让模型学习更高效精细调教的学习参数：内层学习率设为 7.5e-5 引入特殊的损失函数（max-z-loss）来确保训练过程的稳定性使用 Nesterov 动量优化算法，帮助模型更快更好地学习支持训练机器的灵活接入和退出，最多可同时使用 14 台机器协同训练

从训练过程的监控图表可以看出，PRIME 系统表现出色：即使参与训练的机器数量经常变化（从最少 4 台逐渐增加到最多 14 台），整个训练过程依然保持稳定，充分证明了系统的可靠性。

训练动态图展示了整个训练过程中模型困惑度和学习率的变化，包括预热阶段、稳定阶段和退火阶段。

Prime：一个去中心化训练框架

该团队使用的训练框架名为 Prime，这基于他们开发的 OpenDiLoCo。而 OpenDiLoCo 又基于 DeepMind 之前开发的 Distributed Low-Communication（DiLoCo）方法。

项目地址：https://github.com/PrimeIntellect-ai/OpenDiLoCo

在此之前，Prime Intellect 已经在 1B 参数规模上实验了去中心化 AI 模型训练。该团队表示：「这让我们到达了我们的 masterplan 的第三步：合作训练用于语言、智能体和科学的开放式基础模型。」

Prime Intellect 的 masterplan

相比于之前开源的 OpenDiLoCo，Prime 有两大关键提升。

一是在算法方面，他们在 OpenDiLoCo 上执行了许多消融研究，发现还能进一步降低通信要求。值得注意的是，他们将伪梯度的 int8 量化与每 500 步进行一次的外部优化器同步相结合，从而将带宽要求降低了多达 2000 倍。这些结果不仅在较小规模下是有效的，该团队也将它们扩展到了更大的模型。

在具体的大规模扩展方面，我们知道，去中心化训练既是工程挑战，也是研究挑战。当今最大的 AI 实验室也还没有彻底解决在多个分布式数据中心上的容错训练。该团队表示，Prime 这种全新的去中心化训练框架支持容错训练，支持计算资源的动态开启/关闭，还能优化全球分布式 GPU 网络中的通信和路由。

Prime 中用于容错训练的 ElasticDeviceMesh 的拓扑结构

该团队在博客中写道：「该框架构成了我们开源技术堆栈的基础，其目标是支持我们自己的算法以及 OpenDiLoCo 之外的其他去中心化训练算法。通过在此基础架构上构建，我们的目标是突破全球分布式 AI 训练的极限。」

具体来说，Prime 框架包含以下关键特性：

用于容错训练的 ElasticDeviceMesh 异步分布式检查点实时检查点恢复自定义 Int8 All-Reduce 内核最大化带宽利用率 PyTorch FSDP2 / DTensor ZeRO-3 实现 CPU 卸载

计算效率

虽然训练散作满天星，但计算效率仍保持「聚是一团火」的高水准：在美国境内集群部署时，计算资源利用率高达 96%（中位数同步延迟仅 103s）；跨越大西洋的部署场景下依然维持在 85.6% 的优异水平（中位数同步延迟 382s）；即便是在全球分布式节点配置下，计算利用率也能稳定保持在 83%（中位数同步延迟 469s）。

这一系列亮眼的数据充分证明了该去中心化训练框架的容错性和扩展性，不仅能够从容应对不同地理位置的网络延迟挑战，更在确保训练稳定性的同时实现了高效计算。

后训练

在完成分布在全球的预训练阶段后，Prime Intellect 与 Arcee AI 合作开展了一系列后训练，以提升 INTELLECT-1 的整体能力和特定任务表现。主要包含三个阶段：

SFT（监督微调，16 轮） DPO（直接偏好优化，8 轮）使用 MergeKit 整合训练成果

更多信息请查看详细技术报告：

论文链接：https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf

未来计划：长期目标是 AGI

INTELLECT-1 的成功让我们看到了去中心化训练的巨大潜力。至于如何将开源的 PRIME 框架扩展到目前动辄 70B 的规模呢？Prime Intellect 提了三点规划：

继续扩大全球计算网络用更多奖金激励推动社区参与进一步优化 PRIME 去中心化训练架构以支持更大的模型

在博客结尾，Prime Intellect 写道：「为了防止 AI 能力被少数组织垄断，我们诚邀全球 AI 社区通过 GitHub 或 Discord 加入我们。让我们携手共建一个更开放、更具协作性的 AI 发展未来。」

https://www.primeintellect.ai/blog/intellect-1-release

https://app.primeintellect.ai/intelligence

https://www.primeintellect.ai/blog/intellect-1

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-12-03 15:45:02

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于三洲,欧亚,开发者,模型,流程,训练的资讯：

华为云正式发布盘古大模型3.0 打造世界AI另一极

...型迎来重大升级。华为常务董事、华为云CEO张平安在华为开发者大会2023上发布了华为云盘古大模型3.0，持续打造核心竞争力，为行业客户、伙伴及开发者提供更好的服务。会上，华为

2023-07-07 18:22:00

模型即服务，卓世科技MaaS平台 2.0 正式上线

...于知识增强大模型的一站式行业模型训练开发平台。面向开发者和企业提供从基础算力服务、数据服务、模型训练服务、应用部署和构建等一系列行业模型的“交钥匙”服务。通过产业数据和行业知

2024-08-07 09:45:00

AI重塑千行百业华为云发布盘古大模型3.0和昇腾AI云服务

华为开发者大会2023（Cloud）7月7日在中国东莞正式揭开帷幕，并同时在全球10余个国家、中国30多个城市设有分会场，邀请全球开发者共聚一堂，就AI浪潮之下的产业新机会和技术

2023-07-10 18:01:00

chatgpt低成本复现流程开源

...，节省训练成本、加速产品迭代。而为了能让更大范围的开发者体验复现ChatGPT，除了1750亿参数版本外，Colossal-AI还提供单卡

2023-02-15 15:47:00

酷克数据推出AI开发工具箱HashML 加速企业级AI应用落

...例1: XGBoost模型训练代码示例2： LLaMA2模型微调为了方便SQL开发者使用AI能力，HashML还提供了SQL编程语言接口

2023-09-12 11:31:00

chatgpt低成本复现流程来了

...，节省训练成本、加速产品迭代。而为了能让更大范围的开发者体验复现ChatGPT，除了1750亿参数版本外，Colossal-AI还提供单卡

2023-02-17 14:37:00

华为张迪煊：共筑智能根基，引领AI新未来

...进了更多的行业、城市、高校和科研单位，更多的伙伴和开发者都选择昇腾作为创新的首选。截至目前，昇腾已认证了30多家硬件伙伴、1200多家软件伙伴，联合孵化了2500多个AI场景

2023-07-13 19:00:00

边缘人工智能的新机遇与新挑战

...件的人工智能和边缘解决方案的开发提供支持，并可满足开发者访问英特尔最新架构CPU、GPU、VPU和FPGA等硬件资源的需求

2023-07-25 17:07:00

林伟：大数据AI一体化的解读

...更好的算力、更多的数据去锤炼，并且需要合适的工具让开发者快速迭代模型，只有这样才能更快地提高模型精度。这几年来阿里云一直在宣传AI工程化和规模化，其实是这轮AI爆发的主要推手

2023-11-09 17:14:00

更多关于科技的资讯：

谨以杭州之名呼唤德国

2月26日，德国总理默茨专机抵达杭州。在杭州萧山机场，迎接他的是一辆黑色红旗轿车。随行的约30家企业高管，覆盖了拜耳、大众

2026-02-27 18:02:00

爱奇艺发布最新财报连续四年运营盈利

中国消费者报北京讯（记者孙蔚）2月26日，爱奇艺发布的最新财报显示，2025年总收入272.9亿元，Non-GAAP（非美国通用会计准则）运营利润6

2026-02-27 17:06:00

福建：科技特派员为企业创新“把脉开方”

中国消费者报报道（记者张文章）在福建一些企业的研发实验室与生产车间里，常能看到一些特殊的身影，他们是福建省知识产权保护中心（以下简称福建保护中心）派出的首席质量服务官和科技特派员服务团队

2026-02-27 17:06:00

福建省漳州市质量技术评审与监测评价中心获评全国表现突出单位

中国消费者报福州讯（记者张文章）2月26日，记者从福建省漳州市市场监管局获悉，国家药监局药品评价中心、国家药品不良反应监测中心近日印发《关于表扬2025年全国药械妆不良反应监测评价工作表现突出单位的通报》

2026-02-27 17:06:00

国家高精密光学元件产品质量检验检测中心落户江西

中国消费者报南昌讯（严有生记者朱海）2月27日，记者从江西省市场监管局获悉，市场监管总局近日正式批准在江西省上饶市筹建国家高精密光学元件产品质量检验检测中心

2026-02-27 17:06:00

福建发布2026年家电以旧换新、数码和智能产品购新补贴细则

中国消费者报福州讯（记者张文章）2月26日，福建省商务厅、省市场监管局等5部门联合印发《福建省2026年家电以旧换新、数码和智能产品购新补贴实施细则》（以下简称《细则》）

2026-02-27 17:06:00

京东与DHL集团签署MOU 助力德国品牌深耕中欧市场

2月26日，京东集团与DHL集团（敦豪集团）宣布签署MOU（合作备忘录），双方将围绕创新物流与电商服务展开深度合作，共同打造无缝衔接的一体化解决方案

2026-02-27 14:21:00

药品零售行业具身智能机器人落地北京海淀

中国消费者报北京讯（记者董芳忠）马年春晚上，机器人Galbot从盘核桃、捡玻璃碎片、货架取物，到生活场景的叠衣服、串烤肠

2026-02-27 14:36:00

数字金融的先行者——陆华裕引领宁波银行转型之路

当数字化转型成为银行业共识，宁波银行早已走在前列。而这一切，离不开董事长陆华裕对科技赋能的前瞻性布局。从“五管二宝”到“波波知了”

2026-02-27 14:37:00

深耕铝业匠心筑品，张家港大洋铝业双向赋能B端与C端市场

在铝型材行业高质量发展的浪潮中，张家港大洋铝业有限公司以深耕行业的匠心、全链条的服务实力，立足江苏产业基地，构建起覆盖B端工业需求与C端消费场景的全方位铝型材解决方案

2026-02-27 14:42:00

开局即冲刺，黄桥企业“马力”全开

江南时报讯一年之计在于春，苏州市相城区黄桥街道处处涌动着蓬勃发展的热潮，辖区多家企业抢抓新春开局黄金期，平稳有序复工复产

2026-02-27 15:17:00

中国移动江苏公司“AI+反诈”显成效，两小时闪电拦截固话盗打

近日，中国移动江苏公司泰州分公司(以下简称“泰州移动”)依托智能反诈预警系统，成功处置一起针对本地企业固话的大规模盗打事件

2026-02-27 15:18:00

数智赋能档案治理，亲笔签助力富民银行打造新一代综合档案管理系

当前，数字金融发展驶入快车道。档案管理作为贯穿银行业务始终的重要工作，其数字化进程直接关乎业务运转流畅度、风险防控精准度以及合规经营可靠性

2026-02-27 15:46:00

全新视界跃见未来：蔡司光学品牌馆2026上海展首秀重磅

第24届中国（上海）国际眼镜业展览会将于3月2日盛大开幕。恰逢成立180周年，蔡司光学品牌馆以“全新视界跃见未来”为主题正式首秀

2026-02-27 16:24:00

开放、协同、共赢：能环宝NiOS™智慧系统构筑智慧能源新生态

在能源数字化转型的浪潮中，单一的技术或解决方案已难以满足光伏电站全生命周期管理的复杂需求。能环宝NiOS™智慧能源管理系统

2026-02-27 16:28:00

头条订阅服务

美欧亚三洲开发者联手,全球首个组团训练的大模型,全流程开源