Network learning for training models
本文最后更新于:1 年前
网络学习
网络桥接
docker
使用网络桥接(bridge)来通信容器与宿主机进行通信,docker0
是默认网络桥,其 IP 地址通常是
172.17.0.1
,可以在命令行中输入以下命令显示
1 |
|
网络检测
检查端口是否开放并能够访问,nc
是 netcat
的缩写,-z
只扫描端口,-v
工作在冗余模式
1 |
|
检测集群上的网络状况,安装 nethogs
1 |
|
NCCL
NCCL:在多机多卡训练过程中,作为面向GPU提供的集合通信库,能有效提高训练速度。
DMA(Direct Memory Access):允许外部设备直接访问计算机内存,无需通过 CPU 进行数据传输,减少 CPU 负担。
RDMA(Remote Direct Memory Access):允许计算机在网络中从另一台计算机内存中读取或写入数据,而不需要远程系统的 CPU 干预,这样能减少网络通信延迟和 CPU 负担。
InfiniBand:一个高性能、低延迟的网络通信架构,常用于高性能计算集群,支持 RDMA 技术,
显示当前 InfiniBand
网路设备状态工具,其中
state
中的 ACTIVE
代表可以进行通信,而
DOWN
代表不活动。
400Gb/sec
中的 b 代表
bit,其等于 50GB/sec。
Ethernet
代表以太网,与日常网络相同,在大模型训练过程中速度很慢。
Network learning for training models
https://lr-tsinghua11.github.io/2023/08/18/%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%A7%91%E5%AD%A6/%E9%9B%86%E7%BE%A4%E7%BD%91%E7%BB%9C/