No Limitation
[Ubuntu] nvidia-smi, 그래픽 드라이버 연결 문제 해결 본문
딥러닝 학습을 하다 보면 불시에 서버를 재부팅하거나 종료할 시에 그래픽 드라이버에 문제가 생기는 경우가 존재한다.
갑자기 torch.cuda.is_available() 결과가 False가 나오는 경우가 존재하게 된다.
필자의 경우 이전에 학습해놓았던 모형을 validation을 수행할 때 잠깐 사용하려고 했다가 저런 문제가 발생을 하였다.
하지만 감사하게도 이런 저런 시도로 버그를 해결할 수 있었다. ( 하나님 감사합니다 )
다음에 유사한 문제가 발생할 때를 대비해 글을 남기기로 한다.
우선 위와 같은 오류가 나오는 경우 'nvidia-smi'를 하게 되면 가용한 그래픽 드라이버를 찾을 수 없어 다음과 같은 오류가 발생한다.
그 외에도
cat /proc/driver/nvidia/version 을 사용했을 때,
no such file, directory 오류가 뜨면 드라이버에 문제가 생긴다고 볼 수 있다.
우선 버전도 맞추어야하고 여러 가지 골치 아픈 경우가 있을 수 있기 때문에 우선 내가 사용하는 그래픽 카드의 정보를 볼 수 있는 명령어로는
lshw -C display 와
ubuntu-drivers devices가 있다.
이전에 사용한 그래픽 카드가 tesla t4 임을 확인하였고 그래픽 드라이버로는 nvidia-driver-515를 recommend했기 때문에 이 추천된 드라이버를 사용하면 버전 상의 문제는 왠만하면 발생하지 않을 것이다.
그래서 다음과 같은 명령어를 통해 설치할 수 있다.
sudo apt-get install nvidia-driver-515
하지만 다음과 같은 오류가 발생하였다.
Unable to fetch some archives, maybe run apt-get update or try with --fix-missing?
이런 오류 메세지를 낳는데, 이를 해결하는 방법으로 구글링 해보니까
sudo apt-get clean
sudo apt-get update
다음 방법을 가장 많이 권하셨다.
그래서 이 방법을 사용하다 sudo apt-get update 에서 문제가 발생하였다.
처음 GPG 에러에서 Key 어쩌고 문제가 발생했어서 이 오류를 해결하는 구글링을 열심히 찾은 결과
sudo apt-key adv --keyserver pgp.mit.edu --recv-keys {에러 메세지에 있는 key}
이걸 수행하였다.
그러더니 감사하게도 발급을 해주더라
그렇게 발급 받고 다시 sudo apt-get update 하니까 됬다.
그리고 나서 다시 그래픽 드라이버를 설치하려고
sudo apt-get install nvidia-driver-515 을 수행하고 설치가 됬다.
이후 sudo reboot 로 재부팅 해주고
다시 로그인 하고 확인해보니
감사하게 잘 됬고, 실제 pytorch에서도
잘 동작했다. 이후 모형 가중치를 가져와 validation 수행할 때도 다행히 문제 없이 잘 동작하였다.
그리고 중간에 작업하다가 갑자기 nvidia-smi에서 이런 문제가 발생했었다.
'ERR!'라는 문구가 뜨면서 동작하지 않는 것이다.
이는 아래 링크에 있는 가이드대로 조치를 수행하였고
( 구체적으로는 아래 방법을 수행하였다. )
재부팅 이후 다시 작업을 수행한 결과 무사히 잘 동작함을 확인할 수 있었다.
참고했던 링크들..! 공유해주셔서 정말 감사합니다!
https://codechacha.com/ko/install-nvidia-driver-ubuntu/
https://class-programming.tistory.com/16
https://cryptosalamander.tistory.com/87
https://dreamlog.tistory.com/76
]https://md-online.tistory.com/entry/LinuxUbuntuNvidia-version-%ED%99%95%EC%9D%B8
https://bluecolorsky.tistory.com/52
'프로그래밍' 카테고리의 다른 글
[코딩테스트] - 큐 문제풀이 (0) | 2024.03.01 |
---|---|
[코딩테스트 준비] - 문자열 / 스택 문제 풀이 (2) | 2024.02.28 |
[Ubuntu] SSH Server 접속 오류 해결 (0) | 2022.09.06 |
[ Debugging ] Size of tensors must match except in dimension 에러 해결 (0) | 2022.07.15 |
[ Debugging ] Expected more than 1 spatial element when training, got input size torch.Size([~,~,..]) 문제 다루기 (0) | 2022.07.14 |