GPU型实例安装nvidia-fabricmanager服务完整实操指南

（适用于搭载A100/A800/H800的高性能计算集群）

一、操作场景与核心作用

在高性能计算集群的GPU实例中，当你使用A100、A800或H800这类支持NVLink与NVSwitch技术的显卡时，仅仅安装基础的NVIDIA显卡驱动是远远不够的。这类多卡互联架构需要额外部署与驱动版本严格对应的 nvidia-fabricmanager服务，才能让多张GPU卡之间建立稳定高效的互联通道，实现算力的协同调度。如果缺少这个服务，你的GPU实例可能会出现无法识别全部显卡、多卡通信异常、任务调度失败甚至完全无法正常使用GPU资源的问题，直接影响深度学习训练、科学计算、高性能仿真等核心业务的运行。

需要特别注意的是，NVIDIA GPU型实例在升级显卡驱动版本的同时，必须同步升级对应的Fabric Manager版本，两者版本号必须完全匹配，否则会导致服务无法启动，GPU实例依然无法正常工作。如果你是新购云服务器，也可以选择购买页的自动安装驱动功能，该功能会自动完成驱动与Fabric Manager的匹配安装，省去手动配置的麻烦，降低版本不匹配的风险。

二、安装前准备与版本说明

本文以驱动版本 535.216.01为例进行完整演示，你可以根据自己实例的实际驱动版本替换命令中的版本号。不同操作系统镜像需要使用对应的安装包格式：

RPM系镜像（如TencentOS 3.1、CentOS 7.x）：使用 rpm包安装
Debian系镜像（如Ubuntu 22.04）：使用 deb包安装

更多版本的安装包可以前往NVIDIA官方下载页面查询获取，务必确保安装包版本与当前GPU驱动版本完全一致，这是服务能否正常运行的关键前提。

首先需要使用标准登录方式登录你的Linux实例，获取root或具有sudo权限的账号，后续所有操作都需要在实例终端中执行，建议提前备份重要数据，避免操作失误影响业务。

三、分系统安装步骤

1. TencentOS 3.1 / CentOS 7.x 镜像（RPM包）

# 下载nvidia-fabric-manager主包与开发包
wget https://developer.download.nvidia.cn/compute/cuda/repos/rhel8/x86_64/nvidia-fabric-manager-535.216.01-1.x86_64.rpm
wget https://developer.download.nvidia.cn/compute/cuda/repos/rhel8/x86_64/nvidia-fabric-manager-devel-535.216.01-1.x86_64.rpm
# 安装RPM包
rpm -ivh nvidia-fabric-manager-535.216.01-1.x86_64.rpm
rpm -ivh nvidia-fabric-manager-devel-535.216.01-1.x86_64.rpm

安装过程中如果出现依赖提示，可以根据系统提示补充安装所需依赖组件，确保安装流程顺利完成。

2. Ubuntu 22.04 镜像（DEB包）

# 下载DEB安装包
wget https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2204/x86_64/nvidia-fabricmanager-535_535.216.01-0ubuntu1_amd64.deb
# 安装DEB包
dpkg -i nvidia-fabricmanager-535_535.216.01-0ubuntu1_amd64.deb

如果安装过程中出现依赖缺失问题，可以执行 apt-get -f install命令修复依赖后重新安装，确保服务组件完整部署。

四、启动服务与状态验证

安装完成后，需要手动启动 nvidia-fabricmanager服务，并设置为开机自启，确保实例重启后服务能自动恢复，避免因重启导致业务中断。

1. 启动与自启设置

# 设置服务开机自启
systemctl enable nvidia-fabricmanager
# 启动服务
systemctl start nvidia-fabricmanager

systemctl enable：将服务加入系统自启列表，避免实例重启后需要手动再次启动
systemctl start：立即启动服务，让GPU卡间互联配置生效

2. 状态检查与成功验证

# 查看服务运行状态
systemctl status nvidia-fabricmanager

如果服务安装并启动成功，你会看到类似以下的输出信息：

● nvidia-fabricmanager.service - NVIDIA fabric manager service
     Loaded: loaded (/usr/lib/systemd/system/nvidia-fabricmanager.service; enabled; vendor preset: disabled)
     Active: active (running) since Mon 2025-04-28 11:58:43 CST; 3h 57min ago
   Main PID: 90357 (nv-fabricmanage)
      Tasks: 17
      Memory: 14.7M
      CGroup: /system.slice/nvidia-fabricmanager.service
              └─90357 /usr/bin/nv-fabricmanager -c /usr/share/nvidia/nvswitch/fabricmanager.cfg
Apr 28 11:58:42 systemd[1]: Starting NVIDIA fabric manager service...
Apr 28 11:58:43 nv-fabricmanager[90357]: Connected to 1 node.
Apr 28 11:58:43 nv-fabricmanager[90357]: Successfully configured all the available NVSwitches to route GPU NVLink traffic.
Apr 28 11:58:43 systemd[1]: Started NVIDIA fabric manager service.

关键标识： Active: active (running) 表示服务正在运行
成功标识：日志中出现 Successfully configured all the available NVSwitches，说明GPU卡间互联已经正常建立

五、常见问题排查

服务启动失败
1. 优先检查：驱动版本与Fabric Manager版本是否完全一致，版本不匹配是最常见的原因
2. 其次检查：安装包是否完整下载，有无安装过程中的报错信息，可尝试重新下载安装
GPU无法正常互联
1. 确认服务状态为 active (running)，且日志中出现配置NVSwitch成功的记录
2. 若仍有问题，可尝试重启服务（ systemctl restart nvidia-fabricmanager）或重新安装对应版本的组件
升级驱动后服务失效
1. 升级驱动后必须重新安装对应版本的Fabric Manager并重启服务，否则原有服务会因版本不兼容无法启动，导致GPU资源无法使用