Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
Tags
- sfttrainer
- tensor-parallel
- backbone
- transformer
- langchain
- aimv2
- gemma-3
- diffusion
- error: mkl-service + intel(r)
- ViT
- Gemma
- instruction tuning
- Text-to-Image
- llama-4-scout-17b-16e-instruct
- ubuntu
- llm
- Lora
- gemma2
- glibcxx
- CPT
- Mac
- torch._C._cuda_getDeviceCount()
- gemma-3-27b-it
- Fine-tuning
- nccl
- prompt
- multi-gpu
- vLLM
- llama-4
- PEFT
Archives
- Today
- Total
꾸준하게
[torch] torch._C._cuda_getDeviceCount() = 0 해결 본문
dpkg -l | grep -i fabricmanager || rpm -qa | grep -i fabricmanager
sudo apt-get install -y nvidia-fabricmanager-57
sudo systemctl enable --now nvidia-fabricmanager
python -c "import torch; print(torch.cuda.is_available())"
nvidia-smi, nvcc -V 모두 이상이 없지만 위와 같이 torch에서 cuda를 사용할 수 없다고 나온다.
reboot 하면 해결된다는 글들이 많지만 나는 fabricmanager라는게 dead 상태였고, 이를 다시 작동시켜 해결하였다.
참고로 사용 GPU는 a100*8 환경이다.
>>> import torch
torch.cuda.is_available()
>>> torch.cuda.is_available()
/home/genai06/miniforge3/envs/ys/lib/python3.12/site-packages/torch/cuda/__init__.py:174: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 802: system not yet initialized (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
return torch._C._cuda_getDeviceCount() > 0
False