• 我的订阅
  • 科技

《开放加速规范AI服务器设计指南》发布 应对生成式AI爆发算力挑战

类别:科技 发布时间:2023-08-11 22:38:00 来源:每日看点快看

本文转自:光明网

8月10日,在OCP China Day 2023上,《开放加速规范AI服务器设计指南》(以下简称《指南》)发布。《指南》面向生成式AI应用场景,进一步发展和完善了开放加速规范AI服务器的设计理论和设计方法,将助力社区成员高效开发符合开放加速规范的AI加速卡,并大幅缩短与AI服务器的适配周期,为用户提供最佳匹配应用场景的AI算力产品方案,把握生成式AI爆发带来的算力产业巨大机遇。

当前,生成式AI技术飞速发展,引领了新一轮AI创新浪潮。AI大模型是生成式AI的关键底座,对生产效率提升、传统产业转型升级具有重大的价值潜力,而大模型的高效训练通常需要具备千卡以上高算力AI芯片构成的AI服务器集群支撑。

随着生成式AI加速落地,业界对配置高算力AI芯片的AI服务器需求也不断高涨。在此背景下,全球已有上百家公司投入新型AI加速芯片的开发,AI计算芯片多元化趋势凸显。由于缺乏统一的业界规范,不同厂商的AI加速芯片存在显著差异,导致不同芯片需要定制化的系统硬件平台承载,带来更高的开发成本和更长的开发周期。

据悉,OCP是全球基础硬件技术领域覆盖面最广、最有影响力的开源组织。2019年OCP成立OAI(Open Accelerator Infrastructure)小组,对更适合超大规模深度学习训练的AI加速卡形态进行了定义,以解决多元AI加速卡形态和接口不统一的问题。2019年底,OCP正式发布了OAI-UBB(Universal Baseboard)1.0设计规范,并随后推出了基于OAI-UBB1.0规范的开放加速硬件平台,无需硬件修改即可支持不同厂商的OAM产品。近年来,以浪潮信息为代表的系统厂商研制了多款符合开放加速规范的AI服务器,实现了开放加速AI服务器的产业化实践。

基于在开放加速计算领域的产品研发和工程实践经验,《指南》进一步发展和完善了开放加速规范AI服务器的设计理论和设计方法,提出四大设计原则、全栈设计方法,包括硬件设计参考、管理接口规范和性能测试标准,旨在帮助社区成员更快更好地开发AI加速卡并适配开放加速AI服务器,应对生成式AI的算力挑战。

《指南》指出,开放加速规范AI服务器设计应遵循四大设计原则,即应用导向、多元开放、绿色高效、统筹设计。在此基础上,应采用多维协同设计、全面系统测试和性能测评调优的设计方法,以提高适配部署效率、系统稳定性、系统可用性。

多维协同设计是指系统厂商和芯片厂商在规划初期要做好全方位、多维度的协同,最大化减少定制开发内容。大模型计算系统通常是一体化高集成度算力集群,包含计算、存储、网络设备,软件、框架、模型组件,机柜、制冷、供电、液冷基础设施等。只有通过多维协同,才能实现全局最优的性能、能效或TCO指标,提高系统适配和集群部署效率。《指南》给出了从节点到集群的软硬全栈参考设计。

全面系统测试是指异构加速计算节点通常故障率高,需要更加全面、严苛的测试,才能最大程度降低系统生产、部署、运行过程中的故障风险,提高系统稳定性,减少断点对训练持续性的影响。《指南》对结构、散热、压力、稳定性、软件兼容性等方面的测试要点进行了全面梳理。

性能测评调优是指需要对大模型加速计算系统开展多层次的性能评测和软硬件深度调优。《指南》给出了基础性能、互连性能、模型性能测试的要点和指标,并指出了针对大模型训练和推理性能调优的要点,以确保开放加速规范AI服务器能够有效完成当前主流大模型的创新应用支撑。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-08-11 23:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

2024 年 6 大 SwaggerHub 替代方案
...下方显示“由SwaggerHub提供支持”徽章。 指定发送请求的服务器在SwaggerHub中,您需要指定要将API请求发送到的服务器
2024-07-19 11:16:00
北京将多措并举夯实以大模型为引领的人工智能产业发展基础
...降低成本、规模推广。 紫光股份丨GPU芯片供给改善,AI服务器交付率将提高紫光股份(000938.SZ)日前在接受调研时表示
2023-09-03 22:58:00
Claude化身服务器连一切!AI代码自己发Github,程序员只配动嘴了
Anthropic又发大礼包!现在Claude自己就是一台服务器。能直连GitHub,AI自己写代码、自己创建仓库、Push代码
2024-11-27 10:00:00
神州鲲泰携智算系列产品亮相2024华为北京政企合作伙伴大会
...算力+AI领域软硬件产品的自主创新能力,集神州鲲泰智算服务器与神州问学软件平台的优势所长,打造神州鲲泰问学一体机,引起广泛关注。该产品可以为客户打造一个算力更强大、部署更便捷
2024-04-22 16:30:00
自定义Llama 3.1模型的利器来了!NVIDIA打造生成式AI代工厂,还有加速部署的微服务
...构建NVIDIA NIM推理微服务,以便在其首选的云平台和全球服务器制造商提供的NVIDIA认证系统上,使用自己选择的最佳机器学习运维(MLOps)和人工智能运维(AIOps)平台在生产中运行这些模型
2024-07-25 09:30:00
王炸升级!OpenAI首次开发者大会推出定制GPT工具
...网比价,开发者在技术的帮助下尽情释放创造力。OpenAI的服务器无法承受,只能暂停有开发权限的ChatGPTPlus账户注册
2023-11-18 22:39:00
勤哲EXCEL服务器自动生成高速公路营运管理系统
...中综合管理、收费管理等产生的海量数据信息,利用Excel服务器建立各类工作任务流,数据统计查询,图表分析等各类模版,通过这个信息应用平台提高高速公路管理水平,汉十高速荆宜管理
2024-09-06 15:45:00
英特尔以全新软硬件助力千行百业释放AI潜能
...算领域,英特尔与金山云合作,在其第七代性能保障型云服务器X7中引入了第四代至强可扩展处理器进行了针对性优化,同时针对StableDiffusion
2024-04-26 22:38:00
《剑网3》家园土地多少钱 家园土地获取指南
...以保证不被收回。家园系统在正式公测后每个账号在每个服务器中仅限购买一块土地,在开服后每晚8点按照需求开放家园支线,当已开放的服务器入住率超过95%即可开放全新支线。以上就是剑
2023-11-10 21:07:00
更多关于科技的资讯: