꾸준하게

[torch] torch._C._cuda_getDeviceCount() = 0 해결 본문

이슈 해결

[torch] torch._C._cuda_getDeviceCount() = 0 해결

yeonsikc 2025. 8. 22. 01:35
dpkg -l | grep -i fabricmanager || rpm -qa | grep -i fabricmanager
sudo apt-get install -y nvidia-fabricmanager-57
sudo systemctl enable --now nvidia-fabricmanager
python -c "import torch; print(torch.cuda.is_available())"​

 

nvidia-smi, nvcc -V 모두 이상이 없지만 위와 같이 torch에서 cuda를 사용할 수 없다고 나온다.

reboot 하면 해결된다는 글들이 많지만 나는 fabricmanager라는게 dead 상태였고, 이를 다시 작동시켜 해결하였다.

 

참고로 사용 GPU는 a100*8 환경이다.

>>> import torch
torch.cuda.is_available()
>>> torch.cuda.is_available()
/home/genai06/miniforge3/envs/ys/lib/python3.12/site-packages/torch/cuda/__init__.py:174: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 802: system not yet initialized (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
  return torch._C._cuda_getDeviceCount() > 0
False