Gpu资源测试通用报告
一、通用计算性能测试
1.测试目的
-
验证 CUDA ⼯具包是否可以正确安装和配置
-
检查 CUDA 可以访 问的 GPU 设备的数量
-
计算能⼒、核⼼数量、内存带宽等硬件规格信息,以及它们是否能正常⼯作,确保系统硬件配置的稳定性
2.环境配置
-
NVIDIA A100-SXM4-40GB *8
-
NVIDIA 驱动 535.129.03
-
CUDA 11.8
-
nvidia-fabricmanager服务
3.测试工具
deviceQuery,cuda ⼯具包中 samples/1_Utilities/deviceQuery
4.测试过程
# 下载samples项目
git clone https://github.moeyy.xyz/https://github.com/NVIDIA/cuda-samples.git
# 编译deviceQuery
cd cuda-samples/Samples/1_Utilities/deviceQuery && make
# 执行deviceQuery
./deviceQuery
5.测试结果
属性 | 值 |
---|---|
设备 | NVIDIA A100-SXM4-40GB |
CUDA驱动版本 / 运行时版本 | 11.8/11.8 |
CUDA主/次版本号 | 8.0 |
全局内存总量 | 40339 MBytes (42298834944 bytes) |
多处理器数量,CUDA核心/多处理器 | (108) Multiprocessors, (064) CUDA Cores/MP: 6912 CUDA Cores |
GPU最大时钟频率 | 1410 MHz (1.41 GHz) |
内存时钟频率 | 1215 Mhz |
内存总线宽度 | 5120-bit |
L2缓存大小 | 41943040 bytes |
最大纹理维度尺寸 (x,y,z) | 1D=(131072), 2D=(131072, 65536), 3D=(16384, 16384, 16384) |
最大分层1D纹理尺寸,(num) layers | 1D=(32768), 2048 layers |
最大分层2D纹理尺寸,(num) layers | 2D=(32768, 32768), 2048 layers |
常量内存总量 | 65536 bytes |
每块的共享内存总量 | 49152 bytes |
每个多处理器的共享内存总量 | 167936 bytes |
每块可用的寄存器总量 | 65536 |
线程束大小 | 32 |
每个多处理器的最大线程数 | 2048 |
每个块的最大线程数 | 1024 |
线程块的最大尺寸 (x,y,z) | (1024, 1024, 64) |
网格尺寸的最大尺寸 (x,y,z) | (2147483647, 65535, 65535) |
最大内存间距 | 2147483647 bytes |
纹理对齐 | 512 bytes |
并行复制和内核执行 | Yes with 3 copy engine(s) |
内核运行时限制 | No |
集成GPU共享主机内存 | No |
支持主机页锁定内存映射 | Yes |
表面对齐要求 | Yes |
设备支持ECC | Enabled |
设备支持统一寻址 (UVA) | Yes |
设备支持受管内存 | Yes |
设备支持计算抢占 | Yes |
支持协作内核启动 | Yes |
支持多设备协作内核启动 | Yes |
设备PCI域ID / 总线ID / 位置ID | 0 / 207 / 0 |
6.测试结论
当前环境,NVIDIA驱动、CUDA工具包、nvlink服务均已正常安装和配置,系统硬件配置稳定
二、GPU显存带宽测试
1.测试目的
测试主机到GPU设备、GPU设备到主机、以及设备到设备之间的数据传输速度,可用于评估GPU设备与主机之间的带宽,以及用于优化GPU计算应用程序的数据传输性能
2.环境配置
- 显卡规格:NVIDIA A100-SXM4-40GB *8
- CUDA版本:11.7
- NVIDIA驱动版本:525.125.06
- nvidia-fabricmanager服务
3.测试工具
NVIDIA官方提供的命令行工具bandwidthTest
4.测试过程
cd cuda-samples/Samples/1_Utilities/bandwidthTest/
make
./bandwidthTest
5.测试结果
Transfer Direction | Transfer Size (Bytes) | Bandwidth (GB/s) |
---|---|---|
Host to Device | 32000000 | 25.2 |
Device to Host | 32000000 | 26.3 |
Device to Device | 32000000 | 1154.8 |
测试主机到设备、设备到主机、设备到设备的带宽峰值值如上表所示,一般以 GB/s 为单位,该值越高则说明设备和主机之间的数据传输速度越快,系统整体带宽性能越好。其中设备到设备的速度测试实际测试内容为当前GPU的显存性能。
6.测试结论
数据传输的大小32000000 Bytes, A100 GPU主机到设备,设备到主机,设备与设备的显存带宽均低于理论封值,主机到设备、设备到主机影响参数太多,没有理论峰值速度。其中设备到设备的带宽A100 40GB SXM4显卡的理论显存带宽为1555 GB/s,实际测试仅有1154.8GB/s,设备到设备数据传输速度比官方理论峰值低25.79%。(实际带宽会受到多种因素的影响,比如说系统架构和配置、数据传输类型、驱动程序和其他软件等,所以实际带宽都会低于理论峰值)
三、GPU之间的P2P带宽和延迟测试
1.测试目的
评估两个GPU之间的连接性能,包括带宽和延迟,从而评估GPU之间的数据传输性能。在多GPU并行计算中,GPU之间的高速数据传输是保证计算性能的重要因素,因此评估GPU之间连接性能是非常重要的。
2.环境配置
- 显卡规格:NVIDIA A100-SXM4-40GB *8
- CUDA版本:11.7
- NVIDIA驱动版本:525.125.06
- nvidia-fabricmanager服务
3.测试工具
NVIDIA官方提供的命令行工具p2pBandwidthLatencyTest
4.测试过程
cd cuda-samples/Samples/5_Domain_Specific/p2pBandwidthLatencyTest
make
./p2pBandwidthLatencyTest
5.测试结果
(1)P2P Connectivity Matrix
D\D | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
---|---|---|---|---|---|---|---|---|
0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
2 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
3 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
4 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
5 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
6 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
7 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
(2)Unidirectional P2P=Disabled Bandwidth Matrix (GB/s)
D\D | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
---|---|---|---|---|---|---|---|---|
0 | 1274.47 | 17.87 | 12.43 | 12.42 | 20.61 | 20.78 | 20.84 | 20.88 |
1 | 17.88 | 1284.95 | 12.43 | 12.42 | 20.43 | 20.35 | 20.90 | 20.87 |
2 | 12.55 | 12.55 | 1283.89 | 8.30 | 12.61 | 12.61 | 12.61 | 12.59 |
3 | 12.55 | 12.55 | 8.34 | 1287.07 | 12.61 | 12.60 | 12.60 | 12.59 |
4 | 20.59 | 20.59 | 12.49 | 12.48 | 1289.19 | 17.90 | 20.83 | 20.93 |
5 | 20.57 | 20.84 | 12.49 | 12.48 | 17.93 | 1292.39 | 20.82 | 20.97 |
6 | 20.42 | 20.66 | 12.49 | 12.48 | 20.89 | 20.91 | 1292.39 | 18.29 |
7 | 20.51 | 20.42 | 12.49 | 12.48 | 20.84 | 20.91 | 17.84 | 1291.32 |
(3)Unidirectional P2P=Enabled Bandwidth (P2P Writes) Matrix (GB/s)
D\D | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
---|---|---|---|---|---|---|---|---|
0 | 1286.01 | 273.08 | 274.19 | 274.89 | 275.20 | 272.64 | 275.20 | 274.49 |
1 | 273.70 | 1299.92 | 275.18 | 274.67 | 274.69 | 273.92 | 274.49 | 274.47 |
2 | 273.39 | 275.27 | 1296.68 | 274.91 | 274.99 | 275.08 | 274.38 | 274.87 |
3 | 274.09 | 274.91 | 275.01 | 1305.35 | 275.47 | 274.04 | 273.62 | 274.99 |
4 | 274.19 | 275.08 | 274.51 | 275.49 | 1307.53 | 275.92 | 274.70 | 274.86 |
5 | 274.70 | 275.66 | 273.96 | 274.52 | 275.54 | 1301.00 | 275.40 | 275.30 |
6 | 275.15 | 275.18 | 275.02 | 275.18 | 275.61 | 275.45 | 1305.35 | 272.18 |
7 | 275.18 | 275.59 | 271.25 | 275.15 | 274.13 | 272.81 | 275.40 | 1304.26 |
2个GPU间单向带宽是270GB左右
(4)Bidirectional P2P=Disabled Bandwidth Matrix (GB/s)
D\D | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
---|---|---|---|---|---|---|---|---|
0 | 1306.98 | 19.76 | 14.34 | 14.38 | 28.89 | 29.44 | 29.36 | 29.27 |
1 | 19.89 | 1313.58 | 14.38 | 14.38 | 29.01 | 29.02 | 29.08 | 29.30 |
2 | 15.51 | 15.48 | 1312.47 | 9.46 | 15.55 | 15.56 | 15.54 | 15.52 |
3 | 15.58 | 15.57 | 9.50 | 1314.68 | 15.57 | 15.58 | 15.56 | 15.52 |
4 | 28.57 | 28.94 | 14.38 | 14.41 | 1313.03 | 19.85 | 28.45 | 28.88 |
5 | 28.54 | 28.51 | 14.38 | 14.39 | 19.89 | 1314.13 | 28.48 | 28.92 |
6 | 28.58 | 28.94 | 14.37 | 14.42 | 28.67 | 28.69 | 1313.58 | 20.08 |
7 | 28.59 | 28.78 | 14.38 | 14.37 | 29.33 | 29.47 | 20.03 | 1313.03 |
(5)Bidirectional P2P=Enabled Bandwidth Matrix (GB/s)
D\D | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
---|---|---|---|---|---|---|---|---|
0 | 1306.44 | 447.94 | 445.13 | 445.26 | 445.11 | 445.49 | 444.36 | 445.00 |
1 | 447.30 | 1308.08 | 445.13 | 444.88 | 444.86 | 444.99 | 444.86 | 445.67 |
2 | 446.70 | 446.94 | 1318.57 | 518.03 | 519.71 | 519.37 | 517.66 | 521.20 |
3 | 446.82 | 447.00 | 516.49 | 1313.58 | 519.53 | 518.34 | 518.85 | 520.45 |
4 | 446.26 | 447.03 | 443.35 | 444.35 | 1306.98 | 445.26 | 444.25 | 445.64 |
5 | 446.91 | 447.17 | 519.05 | 518.19 | 447.30 | 1320.79 | 520.11 | 519.59 |
6 | 446.25 | 447.70 | 519.22 | 520.07 | 446.45 | 518.22 | 1313.58 | 519.59 |
7 | 447.20 | 447.32 | 517.28 | 519.74 | 447.47 | 519.08 | 518.39 | 1311.37 |
2个GPU间双向带宽400GB左右
(6)P2P=Disabled Latency Matrix (us)
GPU | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
---|---|---|---|---|---|---|---|---|
0 | 3.01 | 21.49 | 21.51 | 21.51 | 21.56 | 20.20 | 18.86 | 21.56 |
1 | 21.60 | 2.90 | 21.58 | 21.57 | 21.70 | 21.56 | 21.47 | 21.57 |
2 | 21.51 | 21.46 | 2.70 | 21.57 | 18.33 | 18.83 | 21.40 | 20.60 |
3 | 21.42 | 21.37 | 21.56 | 2.55 | 16.51 | 21.59 | 17.95 | 21.14 |
4 | 21.55 | 21.48 | 21.55 | 21.71 | 3.00 | 21.46 | 21.46 | 21.46 |
5 | 21.53 | 20.64 | 21.48 | 21.56 | 21.55 | 2.64 | 21.39 | 21.28 |
6 | 21.49 | 21.54 | 21.59 | 21.59 | 21.57 | 21.44 | 2.54 | 21.46 |
7 | 21.75 | 21.56 | 21.67 | 21.58 | 21.45 | 21.15 | 21.57 | 2.66 |
CPU | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
---|---|---|---|---|---|---|---|---|
0 | 3.01 | 8.01 | 7.93 | 7.84 | 8.23 | 7.04 | 7.11 | 8.24 |
1 | 7.98 | 2.97 | 7.96 | 7.90 | 8.21 | 7.08 | 7.13 | 8.24 |
2 | 7.83 | 7.88 | 3.02 | 7.89 | 8.19 | 7.12 | 7.03 | 8.20 |
3 | 7.81 | 7.84 | 7.84 | 2.94 | 8.20 | 7.08 | 7.03 | 8.12 |
4 | 7.92 | 7.99 | 7.98 | 7.97 | 3.07 | 7.28 | 7.30 | 8.39 |
5 | 7.02 | 7.10 | 7.07 | 7.06 | 7.46 | 2.39 | 6.43 | 7.50 |
6 | 7.00 | 7.14 | 7.10 | 7.08 | 7.48 | 6.34 | 2.41 | 7.46 |
7 | 8.28 | 8.34 | 8.11 | 8.04 | 8.52 | 7.33 | 7.33 | 3.08 |
(7)P2P=Enabled Latency (P2P Writes) Matrix (us)
GPU | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
---|---|---|---|---|---|---|---|---|
0 | 3.01 | 2.89 | 2.90 | 2.90 | 2.88 | 2.90 | 2.90 | 2.90 |
1 | 2.96 | 2.91 | 2.91 | 2.96 | 2.92 | 2.92 | 2.91 | 2.91 |
2 | 2.79 | 2.73 | 2.71 | 2.75 | 2.73 | 2.74 | 2.80 | 2.72 |
3 | 3.10 | 3.06 | 3.03 | 2.98 | 3.00 | 3.03 | 3.03 | 3.07 |
4 | 2.95 | 2.95 | 3.02 | 2.97 | 3.01 | 2.96 | 2.96 | 2.96 |
5 | 2.61 | 2.62 | 2.60 | 2.64 | 2.61 | 2.64 | 2.63 | 2.71 |
6 | 2.68 | 2.64 | 2.70 | 2.70 | 2.62 | 2.60 | 2.53 | 2.62 |
7 | 2.63 | 2.58 | 2.56 | 2.63 | 2.55 | 2.77 | 2.63 | 2.65 |
CPU | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
---|---|---|---|---|---|---|---|---|
0 | 2.96 | 2.23 | 2.16 | 2.16 | 2.17 | 2.16 | 2.16 | 2.18 |
1 | 2.33 | 3.00 | 2.25 | 2.23 | 2.32 | 2.26 | 2.29 | 2.29 |
2 | 2.30 | 2.27 | 3.06 | 2.27 | 2.28 | 2.25 | 2.25 | 2.28 |
3 | 2.34 | 2.27 | 2.27 | 3.09 | 2.26 | 2.22 | 2.24 | 2.25 |
4 | 2.38 | 2.38 | 2.33 | 2.34 | 3.06 | 2.35 | 2.31 | 2.38 |
5 | 2.01 | 1.96 | 1.95 | 1.97 | 1.96 | 2.48 | 1.94 | 1.94 |
6 | 2.00 | 2.05 | 1.99 | 1.98 | 1.99 | 1.99 | 2.47 | 1.97 |
7 | 2.52 | 2.40 | 2.42 | 2.44 | 2.44 | 2.41 | 2.39 | 3.25 |
p2pBandwidthLatencyTest测试结果主要包括两个指标:带宽和延迟。带宽是指两个GPU之间传输数据的速度,一般用GB/s作为单位。p2pBandwidthLatencyTest测试结果中,带宽值越高表示两个GPU之间传输数据的速度越快,性能越好。一般来说,如果两个GPU连接到同一个根节点,则带宽会比连接到不同根节点的GPU之间的带宽要快。延迟是指两个GPU数据传输所需要的时间,一般用us作为单位。p2pBandwidthLatencyTest测试结果中,延迟值越低表示数据传输所需要的时间越短,性能越好。一般来说,如果两个GPU连接到同一个根节点,则延迟会比连接到不同节点的GPU之间的延迟要低。
6.测试结论
GPU A100 各卡间通信正常,带宽比理论值低32.34%,卡间延迟无异常
四、浮点计算性能测试
1.测试目的
浮点运算实际性能
2.环境配置
- 显卡规格:NVIDIA A100-SXM4-40GB *8
- CUDA版本:11.8
- NVIDIA驱动版本:525.125.06
- nvidia-fabricmanager服务
- pyTorch
3.测试工具
- 方法一:NVIDIA官方的GEMM(General matrix multiplication)工具
- 方法二:PyTorch 提供的 Benchmark
4.测试过程
测试前将GPU时钟频率调整到此GPU所支持的最大频率
查看GPU所支持的最大时钟频率
nvidia-smi -q -d clock
设置GPU应用程序时钟频率 , 语法 nvidia-smi -ac <MEM clock, Graphics clock>
nvidia-smi -lgc 1215,1440
PyTorch方法
测试代码 flops.py
import torch
from torch.utils import benchmark
typ = torch.float16
n = 1024 * 16
a = torch.randn(n, n).type(typ).cuda()
b = torch.randn(n, n).type(typ).cuda()
t = benchmark.Timer(
stmt='a @ b',
globals={'a': a, 'b': b})
x = t.timeit(50)
print('float16 ,',2*n**3 / x.median /1e12)
typ = torch.float32
n = 1024 * 16
a = torch.randn(n, n).type(typ).cuda()
b = torch.randn(n, n).type(typ).cuda()
t = benchmark.Timer(
stmt='a @ b',
globals={'a': a, 'b': b})
x = t.timeit(50)
print('float32 ,',2*n**3 / x.median /1e12)
typ = torch.float64
n = 1024 * 16
a = torch.randn(n, n).type(typ).cuda()
b = torch.randn(n, n).type(typ).cuda()
t = benchmark.Timer(
stmt='a @ b',
globals={'a': a, 'b': b})
x = t.timeit(50)
print('float64 ,',2*n**3 / x.median /1e12)
gemm方法
#gemm程序需要更高版本的glibcxx,我们用cuda里自带的
export LD_LIBRARY_PATH=/usr/local/cuda-11.8/nsight-compute-2022.3.0/host/linux-desktop-glibc_2_11_3-x64:$LD_LIBRARY_PATH
#INT 8:
./cublasMatmulBench -P=bisb_imma -m=8192 -n=3456 -k=16384 -T=1000 -ta=1 -B=0
#FP16:
./cublasMatmulBench -P=hsh -m=12288 -n=9216 -k=32768 -T=1000-tb=1 -B=0
#TF32:
./cublasMatmulBench -P=sss_fast_tf32 -m=8192 -n=3456 -k=16384-T=1000 -ta=1 -B=0
#FP32:
./cublasMatmulBench -P=ddd -m=3456 -n=2048 -k=16384 -T=1000-tb=1 -B=0
#FP64:
./cublasMatmulBench -P=sss -m=3456 -n=2048 -k=16384 -T=1000-tb=1 -B=0
5.测试结果
浮点类型 | 理论性能(TFLOPS) | 实测性能(TFLOPS) | 实测性能(GFLOPS) |
---|---|---|---|
INT8 | 501 | 498.848973 | 498848.973 |
FP16 | 259 | 236.967211 | 236967.211 |
TF32 | 117 | 57.980576 | 57980.576 |
FP64 | 19.2 | 18.100587 | 18100.587 |
FP64 | 18.6 | 19.212092 | 19212.092 |
6.测试结论
- 对于INT8浮点类型,实测性能略高于理论性能,这可能是由于硬件优化或者其他因素导致的。
- FP16和TF32浮点类型的实测性能都略低于其理论性能,这可能表明在这些类型上存在一些性能损失或者硬件限制。
- 而对于FP64浮点类型,实测性能与理论性能相比也有所下降,这可能是由于硬件限制或者测试条件的影响。
综上所述,测试结果表明在不同的浮点类型下,实测性能与理论性能之间存在一些差异,这可能受到硬件、优化以及测试条件等多种因素的影响。
五、Transformer+WMT’14
1.测试目的
测试长时间运行时的性能稳定性,以及整体性能。
2.环境配置
- 显卡规格:NVIDIA A100-SXM4-40GB *8
- CUDA版本:11.8
- NVIDIA驱动版本:525.125.06
- nvidia-fabricmanager服务
- pyTorch
3.测试工具
pyTorch1.13.1、sockeye3.1.34
4.测试过程
5.测试结果
GPUs | Updates(平均) | Epoch(平均) | Updates/sec | Time-cost |
---|---|---|---|---|
1 | 500 | 1 | 0.748 | 2429.823 |
2 | 500 | 1 | 0.812 | 615.760 |
8 | 500 | 1 | 1.578 | 316.931 |
该程序主要使用pytorch的Transformer模型,数据集使用WMT’14英语翻译为德语数据并进行byte-pair encoding编码,测试训练耗时耗时。数据处理参数,训练参数在每次训练中均不改变。测试结果中GPUs表示的GPU数量,Updates表示参数更新次数,Epoch标示训练轮数,Updates/sec表示每秒钟的参数更新次数(模型训练的速度),Time-cost表示训练耗时。
数据预处理参数 | |
---|---|
word-min-count | 2 |
pad-vocab-to-multiple-of | 8 |
max-seq-len | 95 |
num-samples-per-shard | 10000000 |
训练参数 | |
---|---|
num-layers | 6 |
transformer-model-size | 1024 |
transformer-attention-heads | 16 |
transformer-feed-forward-num-hidden | 4096 |
batch-type | max-word |
batch-size | 5000 |
update-interval | 20 |
checkpoint-interval | 500 |
max-updates | 15000 |
optimizer-betas | 0.9:0.98 |
initial-learning-rate | 0.06325 |
learning-rate-scheduler-type | inv-sqrt-decay |
learning-rate-warmup | 4000 |
seed | 1 |
6.测试结论
。。。
六、NVLink测试
1.测试目的
测试NVLink使用状况,性能
2.环境配置
- 显卡规格:NVIDIA A100-SXM4-40GB *8
- CUDA版本:11.8
- NVIDIA驱动版本:525.125.06
- nvidia-fabricmanager服务
- pyTorch
3.测试工具
NVSMI
4.测试过程
查看 nvswicth拓扑
可以看到,任意2个GPU卡之间都是 NVLink12。应该是因为A100引入了 NVSwitch的关系
查看 nvlink 状态
测试代码
import torch
import numpy as np
device = torch.device("cuda")
n_gpus = 8
data_size = 1024 * 1024 * 1024 # 1 GB
speed_matrix = np.zeros((n_gpus, n_gpus))
for i in range(n_gpus):
for j in range(i + 1, n_gpus):
print(f"Testing communication between GPU {i} and GPU {j}...")
with torch.cuda.device(i):
data = torch.randn(data_size, device=device)
torch.cuda.synchronize()
with torch.cuda.device(j):
result = torch.randn(data_size, device=device)
torch.cuda.synchronize()
with torch.cuda.device(i):
start = torch.cuda.Event(enable_timing=True)
end = torch.cuda.Event(enable_timing=True)
start.record()
result.copy_(data)
end.record()
torch.cuda.synchronize()
elapsed_time_ms = start.elapsed_time(end)
transfer_rate = data_size / elapsed_time_ms * 1000 * 8 / 1e9
speed_matrix[i][j] = transfer_rate
speed_matrix[j][i] = transfer_rate
print(speed_matrix)
5.测试结果
GPU 1 | GPU 2 | GPU 3 | GPU 4 | GPU 5 | GPU 6 | GPU 7 | GPU 8 | |
---|---|---|---|---|---|---|---|---|
GPU 1 | 0 | 464.9859565 | 526.4730694 | 526.2759531 | 525.7450773 | 525.9377422 | 473.3910529 | 526.7334102 |
GPU 2 | 464.9859565 | 0 | 436.0805066 | 470.8014557 | 529.4908943 | 527.1316232 | 528.5546556 | 528.4599488 |
GPU 3 | 526.4730694 | 436.0805066 | 0 | 528.6358067 | 529.1016042 | 529.6339894 | 478.4399884 | 529.2038167 |
GPU 4 | 526.2759531 | 470.8014557 | 528.6358067 | 0 | 478.959038 | 529.4251015 | 528.190651 | 529.1245426 |
GPU 5 | 525.7450773 | 529.4908943 | 529.1016042 | 478.959038 | 0 | 529.1850375 | 529.5608754 | 529.8420447 |
GPU 6 | 525.9377422 | 527.1316232 | 529.6339894 | 529.4251015 | 529.1850375 | 0 | 469.9187813 | 529.6298162 |
GPU 7 | 473.3910529 | 528.5546556 | 478.4399884 | 528.190651 | 529.5608754 | 469.9187813 | 0 | 527.0560527 |
GPU 8 | 526.7334102 | 528.4599488 | 529.2038167 | 529.1245426 | 529.8420447 | 529.6298162 | 527.0560527 | 0 |
GPU服务器内NVLINK带宽测试
6.测试结论
A100 40GB SXM 理论GPU卡间带宽400GB/s,正常模式NVLink全互通带宽约为370GB基本符合预期。