双卡 3090 环境配置

Setup

其实是内核问题,有人做实验换了一个有问题的内核。最后相当于升级了一下 Nvidia 驱动。

过程不详述,摘要如下。

  1. 检查 lspci | grep VGA 有设备,但 nvidia-smi 报错
  2. 准备环节。apt update && apt upgrade
  3. 执行 2. 报错,换源 + 更新 GPG Key
  4. 卸载旧驱动 v535.183
  5. 查找可用驱动
  6. 这里 apt install nvidia-driver-535 安装不了,应还是源的问题。把 535 去掉,默认安装最新 v535.216
  7. 重新测试 nvidia-smi 报错。排查,内核和显卡驱动版本不一致,仍为 v535.183
  8. 重新编译
  9. 执行 8. 报错,根据日志,切换为 GCC 12
  10. 编译后 reboot 再检查 nvidia-smi 成功点亮。

检查输出

References

  1. NVIDIA 驱动失效简单解决方案 NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver._nvidia-smi has failed because it couldn’t communic-CSDN博客
  2. Ubuntu 解决显卡驱动问题 NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver._ubuntu nvidia-smi has failed because it couldn’t c-CSDN博客
  3. Nvidia-smi 連不到 driver 的自救方法. 最近在用 12G VRAM 的顯卡跑 LLM,實在很痛苦 | by YT Chen | Medium
  4. install nvidia driver | Espoir Murhabazi ideas’ home
  5. 无痛安装/重装 Linux 服务器 nvidia 驱动安装 - 知乎