通信方式、点对点通信、集合通信

news/2025/2/4 19:43:06 标签: NCCL

文章目录

    • 从硬件PCIE、NVLINK、RDMA原理到通信NCCL、MPI原理!
    • 通信实现方式:机器内通信、机器间通信
    • 通信实现方式:通讯协调
    • 通信实现方式:机器内通信:PCIe
    • 通信实现方式:机器内通信:NVLink
    • 通信实现方式:机器间通信:RDMA(直连模式)
    • 通信协调:软件篇
    • 通信协调:软件篇:MPI
    • MPI:集合通信
    • MPI:进程启动与收发数据顺序:broadcast
    • MPI:进程启动与收发数据顺序:gather
    • 通信协调:软件篇:NCCL
    • 点对点通信、集合式通信
    • 分布式训练系统
    • 集中式通信方式:一对多 broadcast
    • 集中式通信方式:一对多 scatter
    • 集中式通信方式:多对一 reduce
    • 集中式通信方式:多对一 gather
    • 集中式通信方式:多对多 all reduce(用的特别多)
    • 集中式通信方式:多对多 all reduce 的两种实现方式
    • 集中式通信方式:多对多 all reduce = reduce + broadcast (聚合到一张卡)
    • 集中式通信方式:多对多 all reduce = reduce-scatter + all-gather
    • 集中式通信方式:多对多 all gather
    • 集中式通信方式:多对多 reduce scatter
    • 集中式通信方式:多对多 all to all

NCCLMPI_2">从硬件PCIE、NVLINK、RDMA原理到通信NCCL、MPI原理!

通信实现方式:机器内通信、机器间通信

计算机通网络通讯中最重要的两个衡量指标是:带宽、延迟

在这里插入图片描述

内存共享:比如 多个应用共享手机里面的同一块内存
PCIe:最明显的方式就是 gpu 与 cpu 之间的通信,大部分都通过之间的PCIe插槽进行的
NVLink(直连模式):GPU 与 GPU 之间进行一个互通

在这里插入图片描述
Q:不同机柜之间的GPU的访问,不是通过NVSwitch进行全互联的吗。那这个机器间的通信,都传输什么信息呢?通讯、互传数据、等待和同步相关的问题,这些信息是走什么传输的呢?
---- 如果是NVLink通信的话,它应该还是属于 机器内通信,而不是机器间通讯(TCP/IP、RDMA)

蓝色的线:通过网线进行连接
AI集群里面,可能更多的用到 RDMA 的网络模型通信


通信实现方式:通讯协调

在这里插入图片描述

通信实现方式:机器内通信:PCIe

在这里插入图片描述

通信实现方式:机器内通信:NVLink

在这里插入图片描述


通信实现方式:机器间通信:RDMA(直连模式)

在这里插入图片描述
在这里插入图片描述
(1)左边的图是TCP/IP,右边的是RDMA
(2)左边的几个蓝色方框,在传递的时候 需要经过好几次的用户的内存拷贝,对大数据执行起来会非常的缓慢,数据量越大的时候,这个延迟是很难去接受的!
(3)而RDMA新的协议,就是用户直接跳过kernel层,直接传到远端的服务器,数据绕过CPU,直接通过RDMA设备,对远端的虚拟内存直接进行访问读和写;

(4)既然是机器间通信,那么不同机器间是通过以太网连接的
(5)Q:RDMA是通过网线连接的吗?
在这里插入图片描述


通信协调:软件篇

在这里插入图片描述


通信协调:软件篇:MPI

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
OSI只是一个模型概念,并不提供具体的实现方法。实际上的网络的标准是TCP/IP

在这里插入图片描述
在这里插入图片描述

MPI:集合通信

在这里插入图片描述

在这里插入图片描述


MPI:进程启动与收发数据顺序:broadcast

在这里插入图片描述


MPI:进程启动与收发数据顺序:gather

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
优化通信框架的性能,那不就是用到了之前学习到的 二叉树的结构了

在这里插入图片描述
在这里插入图片描述


NCCL_68">通信协调:软件篇:NCCL

在这里插入图片描述
(1)对网络拓扑进行一个感知,topo是长什么样子的,回环是怎么组织的
(2)对网络拓扑进行一个搜索,找到一个最好的通信的策略
(3)使能CUDA的kernel 对数据进行通信

在这里插入图片描述


点对点通信、集合式通信

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


在这里插入图片描述


分布式训练系统

在这里插入图片描述
在这里插入图片描述
对模型进行切分,每个服务器又需要相互通信,把一个大的网络模型切分成很多小的网络模型,每个小的网络模型之间是相互依赖的,需要就需要跨节点对数据进行同步
涉及到同步,中间的过程就需要通信,跨节点的通信,跨网络的通信,跨卡的通信;


集中式通信方式:一对多 broadcast

(1)把 NPU0 的数据同步到其他 3 份里面
在这里插入图片描述
在这里插入图片描述


集中式通信方式:一对多 scatter

在这里插入图片描述
在这里插入图片描述


集中式通信方式:多对一 reduce

在这里插入图片描述
在这里插入图片描述


集中式通信方式:多对一 gather

在这里插入图片描述
在这里插入图片描述


集中式通信方式:多对多 all reduce(用的特别多)

在这里插入图片描述
在这里插入图片描述


集中式通信方式:多对多 all reduce 的两种实现方式

在这里插入图片描述


集中式通信方式:多对多 all reduce = reduce + broadcast (聚合到一张卡)

在这里插入图片描述
在这里插入图片描述


集中式通信方式:多对多 all reduce = reduce-scatter + all-gather

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

木桶原理,强同步的!(大模型对AI集群训练的诉求:大带宽、强同步)


集中式通信方式:多对多 all gather

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述


集中式通信方式:多对多 reduce scatter

在这里插入图片描述
在这里插入图片描述


集中式通信方式:多对多 all to all

在这里插入图片描述
假设每个NPU上面都有一个A的数据,A的数据在计算完之后,希望进行通讯,都变成一块卡的数据,再进行聚类处理

在这里插入图片描述


END


http://www.niftyadmin.cn/n/5841773.html

相关文章

Rust枚举(Enum)完全指南:用类型安全表达多样性

枚举(Enum)是Rust类型系统的核心特性之一,它不仅能够表示简单的选项集合,还能携带复杂数据,配合模式匹配实现强大的逻辑控制。本文将通过具体示例,深入解析Rust枚举的完整用法。 一、基础枚举定义 1.1 简单…

Java | CompletableFuture详解

关注:CodingTechWork CompletableFuture 概述 介绍 CompletableFuture是 Java 8 引入的一个非常强大的类,属于 java.util.concurrent 包。它是用于异步编程的一个工具,可以帮助我们更方便地处理并发任务。与传统的线程池或 Future 对比&…

Vue-data数据对象

目录 一、Vue中的data数据对象是什么?二、data支持的数据类型有哪些? 一、Vue中的data数据对象是什么? Vue中用到的数据定义在data中。 二、data支持的数据类型有哪些? data中可以写复杂类型的数据,渲染复杂类型数据…

PyQt4学习笔记1】使用QWidget创建窗口

目录 一、创建一个简单的 QWidget 窗口 二、设置窗口属性 1. 设置窗口标题 2. 设置背景颜色 3. 设置窗口大小和位置 4. 设置窗口模式 5. 关闭窗口 6. QWidget 及其子控件的样式 三、添加控件到 QWidget 1. 添加按钮 2. 添加标签 3. 添加文本框 4. 控件布局管理 四、自定义样式 …

【协议详解】卫星通信5G IoT NTN SIB32-NB 信令详解

一、SIB32信令概述 低轨卫星的移动性会导致地面用户设备覆盖不连续,为了解决这一问题,3GPP引入了SystemInformationBlockType32(SIB32)信令,为非连续覆盖预测提供卫星辅助信息。地面设备可以基于SIB32信令中的信息&am…

嵌入式硬件篇---HAL库内外部时钟主频锁相环分频器

文章目录 前言第一部分:STM32-HAL库HAL库编程优势1.抽象层2.易于上手3.代码可读性4.跨平台性5.维护和升级6.中间件支持 劣势1.性能2.灵活性3.代码大小4.复杂性 直接寄存器操作编程优势1.性能2.灵活性3.代码大小4.学习深度 劣势1.复杂性2.可读性3.可维护性4.跨平台性…

stm32小白成长为高手的学习步骤和方法

我们假定大家已经对STM32的书籍或者文档有一定的理解。如不理解,请立即阅读STM32的文档,以获取最基本的知识点。STM32单片机自学教程 这篇博文也是一篇不错的入门教程,初学者可以看看,讲的真心不错。 英文好的同学&#xf…

C++底层学习预备:模板初阶

文章目录 1.编程范式2.函数模板2.1 函数模板概念2.2 函数模板原理2.3 函数模板实例化2.3.1 隐式实例化2.3.2 显式实例化 2.4 模板参数的匹配原则 3.类模板希望读者们多多三连支持小编会继续更新你们的鼓励就是我前进的动力! 进入STL库学习之前我们要先了解有关模板的…