Bootstrap

如何解决nvidia Delta&nvlink gpu卡使用nvidia-smi nvlink -s命令查看NVlink链路状态都是显示未激活?

一、问题描述

Delta A100 GPU卡使用nvidia-smi  nvlink  -s命令查看NVlink链路状态都是显示未激活,不显示速率,如下图,这个原因是缺少nvidia-fabric-manager服务导致的,需要正确安装并启动服务。

解决方法:

1、在NV官网,根据已经安装的操作系统版本和GPU卡驱动版本,下载对应版本的nvidia-fabric-manager包和nvidia-fabric-manager-devel包,如下图

下载地址:https://developer.download.nvidia.cn/compute/cuda/repos/

 

2、然后使用rpm命令直接安装两个包,如下图

3、安装完成两个包之后,启动nvidia-fabric-manager服务

 检查服务状态是否正常

4、然后再次使用nvidia-smi  nvlink  -s命令查看NVlink链路状态都已经正常激活,且每个端口都显示速率。

 5、使用bandwidthTest测试GPU带宽,数据正常

;