• 我的订阅
  • 科技

新一代aigc技术的发展

类别:科技 发布时间:2024-02-16 12:06:00 来源:浅语科技

2023年,人工智能生成内容(AIGC)技术将蓬勃发展,其中ChatGPT作为一个典型案例,在文本生成、代码开发和诗歌创作等多个领域引起行业变革。DDC技术对改变网络格局具有创新和突破性意义,很大程度上提升了效率和连接性。本文将介绍这一AIGC网络的新一代革命性解决方案——DDC技术。

GPU负载共享的三种方法

前述AIGC大型模型的卓越能力不仅来自于其庞大的数据量,也源于算法的不断演进和进步。在训练这些大型模型时,通常需要利用多个GPU来分担工作负载。为实现高效的负载共享,采用3种方法:数据并行、张量并行和流水线并行。

数据并行

数据并行是将模型的输入数据分成多个小批次,并在不同的GPU上并行处理这些小批次。每个GPU拥有完整的模型副本,并能独立处理小批次。通过GPU之间的通信和同步,模型参数得以更新和整合。数据并行适用于具有大规模训练数据集的模型,可以加快训练过程,提高模型的收敛速度。

张量并行

当模型过大无法被容纳在单个处理器的内存中时,通常会采用张量并行方法。在这种方法中,模型的不同部分被分配给不同的GPU,每个GPU负责处理一部分输入数据并执行相应的计算。通过GPU之间频繁的通信和同步,输出结果被收集和整合,但这可能导致较高的通信开销。为了最小化交换延迟,张量并行方法要求处理器之间以高速连接的状态进行通信。

流水线并行

流水线并行将模型的计算流程分解为多个阶段,在不同的GPU上以流水线方式并行执行这些阶段。每个GPU处理整体模型计算的特定部分,并将处理结果传递给下一个GPU进行进一步的计算。这种方法可以减少整体训练时间,对于具有复杂计算流程和多个连续阶段的模型尤其有益。但是需要对流水线进行精心管理,其中一些处理器为避免产生过大的停滞,可能会暂停工作去等待和依赖计算结果。有时,这三种并行策略会结合使用,以改进训练过程。

支持AIGC运行的三种传统解决方案

在传统解决方案中,支持AIGC运行的有3种常见解决方案:InfiniBand、RDMA和帧交换机。

InfiniBand网络

InfiniBand网络是一种高速互连技术,广泛应用于高性能计算和数据中心。它具有高带宽、低延迟和无拥塞等优点。然而,与传统以太网网络相比,InfiniBand网络的成本较高,价格是其几倍。

新一代aigc技术的发展

RDMA网络

RDMA(远程直接内存访问)是一种新型的通信机制。在RDMA方案中,数据可以直接与网卡通信,绕过CPU和复杂的操作系统,这在增强数据吞吐量的同时降低了延迟。过去,RDMA主要在InfiniBand网络上实现。现在,它正在逐步移植到以太网上。当前主流的网络方案是基于RoCEv2协议构建支持RDMA的网络。

请参考《RDMA指南》。

新一代aigc技术的发展

帧交换机

帧交换机是专门设计用于处理基于帧的协议(如以太网)的网络交换机。然而,由于可扩展性有限、设备功耗高和故障域广泛等问题,这种技术仅适用于小规模的AI计算机集群部署。

新一代AIGC网络:DDC技术

由于传统以太网存在性能瓶颈,传统方法仍然面临拥塞和丢包等性能损失,并且可扩展性不足。为应对这些限制,DDC解决方案应运而生。DDC技术解构传统的帧交换机,增强其可扩展性,并使得网络规模可以根据AI集群的大小进行定制。

DDC技术不仅在规模和带宽吞吐方面满足大规模AI模型训练的网络需求,还解决了网络运营其他关键方面的问题。但网络运营不仅仅涉及这两个方面,它还需要在延迟、负载均衡、管理效率等方面进行优化。为了解决这些问题,DDC采用了以下技术策略:

VOQ+基于单元的转发技术抵御丢包

在网络经历突发流量的情况下,可能导致接收端处理缓慢,进而导致拥塞和丢包。DDC系统采用VOQ+基于单元的转发机制,为此提供了强大的解决方案。让我们深入了解具体的过程:

发送端在接收到数据包后,将其分类并存储到虚拟输出队列(VOQ)中。网络连接点(NCP)在分段和动态负载平衡之前检查缓冲区容量。在临时处理限制情况下,数据包被存储在VOQ中,提高了通信稳定性和带宽利用率。

新一代aigc技术的发展

PFC单跳部署避免死锁

RDMA无丢包网络利用PFC技术进行流量控制,可以为以太网链路创建具有分配优先级的多个虚拟通道。然而,PFC的实现在死锁这一问题上仍具有一定挑战。

新一代aigc技术的发展

在DDC网络的背景下,考虑所有的网络连接点(NCPs)和网络通信功能(NCFs)作为一个协同的整体,消除对多级交换机的需求,从而带来了独特的优势。因此,DDC架构有效地避免了与PFC相关的死锁问题,确保了网络的无缝和不间断的运行。

新一代aigc技术的发展

分布式操作系统提高可靠性

在DDC架构中,管理功能在网络控制卡(NCC)的控制下进行集中管理。然而,这种集中控制存在单点故障的潜在风险。为了减轻这个风险,DDC采用了分布式操作系统,为每个网络连接点(NCP)和网络通信功能(NCF)提供独立的管理能力。这种分布式的方法包括独立的控制平面和管理平面,以增强系统的可靠性并简化部署过程。

结论

DDC通过其独特的技术策略有效地应对与大规模AI模型训练相关的网络需求。此外DDC还对其他方面进行优化,以确保网络在各种复杂场景下的稳定性和效率。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-02-16 21:45:21

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

AI大模型时代,瑞数信息变革“下一代应用与数据安全”
...。发布会以创新视角聚焦下一代应用安全WAAP变革,拓展新一代数据安全领域,重磅发布了瑞数全新API扫描器、API安全审计、数据安全检测与应急响应系统及分布式数据库备份系统四大
2023-11-01 23:02:00
2024中关村论坛年会|从数字走向实体,人工智能加速落“实”
...期,信息化向数字化的演进期,网络技术创新的涌现期,新一代信息技术无论是光纤通信、移动通信、卫星通讯、互联网、工业互联网、物联网,都进入了一个新的技术变革的时期。人工智能进入了
2024-04-29 20:12:00
向新而行|从云计算到算力网络 中国电信亮出“AI长期主义”
...时,也需要稳定的算力作为支撑。中国电信正致力于研究新一代智云网络,以高质量、广覆盖、大带宽、低时延、云-边-端协同的算力网络为人工智能的大规模应用提供坚实的基础。在一体化算力
2024-08-22 16:50:00
2023大数据智能化发展暨人工智能创新发展论坛在渝召开
...化创新驱动引领发展战略行动计划》,推进重庆建设国家新一代人工智能创新发展试验区,助力成渝地区双城经济圈建设。院士专家作特邀报告。受访单位供图中国科学院院士、西安交通大学徐宗本
2023-12-03 13:03:00
AI赋能新型工业化
...据要素工作站揭牌仪式在东莞滨海湾新区举行。以东莞市新一代人工智能产业技术研究院(以下简称“研究院”)为技术链接平台,东莞将整合高新技术企业、数据平台、高校院所的资源,深度挖掘
2024-04-18 03:57:00
大模型将深刻改变世界
...技创新进入空前的密集活跃期,以通用人工智能为代表的新一代信息技术正在深刻地重构数字世界和物理世界,加速经济社会数字化、网络化和智能化转型。尚冰建议,要巩固基础网络的领先优势,
2024-09-02 13:41:00
2024星火生态大会召开,云测数据分享AI数据趋势展望与技术实践
...开发支持,方便系统集成及构建数据闭环应用场景,适用于新一代AI工程化数据处理工作台,可助力AI数据训练过程综合效率提升200%。返回搜狐,查看更多责任编辑:
2024-04-26 01:00:00
...全已成为事关国家安全与经济社会发展的重大问题。随着新一代信息技术与制造业深度融合,工业企业数字化、网络化、智能化加速推进,工业数据载体漏洞和后门、非受控运维、数据暴露面等数据
2024-11-03 14:09:00
...局战略性新兴产业和未来产业,积极开展下一代互联网、新一代移动通信、云计算、大数据、人工智能、物联网等关键核心技术攻关,取得了一批标志性成果。——持续突破“算网一体”技术能力。
2025-01-19 05:47:00
更多关于科技的资讯: