• 我的订阅
  • 科技

Yandex推出开源大语言模型训练工具,称可节省高达20%的图形处理器资源

类别:科技 发布时间:2024-06-18 16:13:00 来源:中华网财经

Yandex推出开源大语言模型训练工具,称可节省高达20%的图形处理器资源

文|罗曾

日前,全球科技公司Yandex推出了YaFSDP,这是一种用于训练大型语言模型(LLM)的开源方法。

据介绍,YaFSDP是目前在大型语言模型训练中增强图形处理器(GPU)通信并减少内存使用量的公开可用的最有效工具,与FSDP相比,根据架构和参数数量,其速度最多可提高26%。通过使用YaFSDP缩短大型语言模型的训练时间,可以节省高达20%的图形处理器资源。

Yandex公司高级开发人员、YaFSDP开发团队成员米哈伊尔·赫鲁晓夫(Mikhail Khruschev)表示:“目前,我们正在积极试验各种模型架构和参数大小,以扩展YaFSDP的多功能性。我们很高兴能与全球机器学习社区分享我们在大型语言模型方面的成果,为提高全球研究人员和开发人员的可访问性和效率做出贡献。”

事实上,大型语言模型训练是一个耗时且资源密集的过程。在大型语言模型训练期间,开发人员必须有效管理三种主要资源:计算能力、处理器内存和处理器通信。自行开发大型语言模型的机器学习工程师和企业会投入大量时间和图形处理器资源来训练这些模型。模型越大,与其训练相关的时间和费用就越多。

需要说明的是,大型语言模型训练依赖于组织成集群的众多图形处理器,这些集群是互连的图形处理器阵列,可以执行训练具有数十亿参数的模型所需的大量计算。在集群内的处理器之间分配计算需要持续的通信,这往往会成为“瓶颈”,减缓训练过程并导致计算能力的低效利用。

为了克服这一瓶颈,Yandex开发人员创建YaFSDP,优化了学习速度和性能,通过消除图形处理器通信效率低下的问题,确保了训练时仅需要关注必要的处理器内存,并使图形处理器交互不受干扰。这也使全球人工智能开发人员在训练模型时能够使用更少的计算能力和图形处理器资源。例如,在涉及一个具有700亿参数的模型的预训练场景中,使用YaFSDP可以节省大约150个图形处理器的资源,这相当于每月节省大约360万至1080万元人民币(取决于虚拟图形处理器提供商或平台)。

而YaFSDP是FSDP的增强版本,在大型语言模型训练中通信最密集的阶段,如预培训、对齐和微调,均优于FSDP方法。YaFSDP在Llama 2 和 Llama 3 上显示的最终加速结果表明,其训练速度有了显著提高,在 Llama 2 70B和Llama3 70B上分别达到21%和26%。当与Yandex的其他性能增强解决方案结合使用时,该方法可将某些模型的训练过程加速高达45%。

“YaFSDP在13至700亿个参数的模型上显示了令人印象深刻的结果,在30至700亿个参数范围内的表现尤为强劲,”米哈伊尔·赫鲁晓夫表示,“目前,YaFSDP最适合基于LLaMA架构的广泛使用的开源模型。”

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-18 20:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

超擎数智重磅发布擎天、锋锐、元景系列AI服务器,打造人工智能新质生产力强劲引擎
...中型规模GPU部署。强大性能:采用 Intel至强可扩展第四代处理器平台,TDP 350W;DDR5技术+PCIe Gen5最新技术支撑
2024-04-28 14:05:00
拥有三块A6000的性能猛兽 惠普Z6 G5工作站评测
...存高达48GB,配合256GB超大容量内存,以及Intel新一代至强处理器的支持,惠普Z6 G5不仅可为训练复杂的AI深度学习模型提供强劲算力
2023-11-07 13:51:00
Cerebras 推出全球最强 AI 超算
...近日揭幕。Cerebras公司组装了64个其旗舰产品CS-2人工智能处理器,组成了CG-1超级计算机。AMD公司的EPYC处理器核心为该系统提供动力
2023-07-23 23:01:00
...,这些公司已下单 10 亿美元,采购约 10 万颗英伟达 A800 处理器,预计今年内交付。此外,这些公司还采购了 40 亿美元的英伟达图形处理器(GPU)
2023-08-15 01:10:00
英伟达黄仁勋叠 BUFF!
...1993年创立以来,在计算机图形学领域扎根,推动着图形处理器(GPU)技术的发展,包括实时光线追踪技术的突破、多核与众核处理器创新以及在人工智能和深度学习领域加速算法的训练和
2023-08-10 11:07:00
成本降低12倍!英伟达升级版大模型芯片明年投产,黄仁勋:AIGC时代来了
...同之处在于,GH200将同时配备高达141G的内存和72核ARM中央处理器,每秒5TB带宽。和现有Grace Hopper型号相比
2023-08-09 11:49:00
英特尔更新arc图形解决方案directml优化
...DirectML,包括ArcA770这类独显以及即将推出的酷睿Ultra移动处理器中内置的Arc核显。微软表示,开发者在将AI能力引入客户端系统时面临的一个问题是确保模型在消费者PC系统配置的限制下能够良好地适应和运行
2023-11-20 11:52:00
AI竞赛推动英伟达股价暴涨超90% 科技巨头承诺将继续“买买买”
...己研发的芯片为AI模型提供动力外,也使用英伟达的芯片处理器,用于训练和部署尖端的人工智能。科技公司在投入巨额资金部署人工智能的同时,期待人工智能为其带来更高的盈利回报。包括谷
2023-05-05 11:20:00
英特尔推最新AI处理器,挑战英伟达:训练主导地位不会持久
...、首款基于Intel 4制程工艺打造的新一代酷睿(Core)Ultra处理器,以及面向企业、在每个核心中都内置了AI加速器的第五代至强(Xeon)处理器
2023-12-15 13:32:00
更多关于科技的资讯: