Notice
Recent Posts
Recent Comments
«   2024/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Tags
more
Archives
Today
Total
관리 메뉴

No Limitation

[Ubuntu] nvidia-smi, 그래픽 드라이버 연결 문제 해결 본문

프로그래밍

[Ubuntu] nvidia-smi, 그래픽 드라이버 연결 문제 해결

yesungcho 2022. 9. 15. 21:22

딥러닝 학습을 하다 보면 불시에 서버를 재부팅하거나 종료할 시에 그래픽 드라이버에 문제가 생기는 경우가 존재한다.

 

갑자기 torch.cuda.is_available() 결과가 False가 나오는 경우가 존재하게 된다.

 

필자의 경우 이전에 학습해놓았던 모형을 validation을 수행할 때 잠깐 사용하려고 했다가 저런 문제가 발생을 하였다. 

 

하지만 감사하게도 이런 저런 시도로 버그를 해결할 수 있었다. ( 하나님 감사합니다 )

 

다음에 유사한 문제가 발생할 때를 대비해 글을 남기기로 한다.

 

우선 위와 같은 오류가 나오는 경우 'nvidia-smi'를 하게 되면 가용한 그래픽 드라이버를 찾을 수 없어 다음과 같은 오류가 발생한다.

 

그 외에도 

cat /proc/driver/nvidia/version 을 사용했을 때,

no such file, directory 오류가 뜨면 드라이버에 문제가 생긴다고 볼 수 있다.

 

우선 버전도 맞추어야하고 여러 가지 골치 아픈 경우가 있을 수 있기 때문에 우선 내가 사용하는 그래픽 카드의 정보를 볼 수 있는 명령어로는

 

lshw -C display 와 

ubuntu-drivers devices가 있다.

이전에 사용한 그래픽 카드가 tesla t4 임을 확인하였고 그래픽 드라이버로는 nvidia-driver-515를 recommend했기 때문에 이 추천된 드라이버를 사용하면 버전 상의 문제는 왠만하면 발생하지 않을 것이다.

 

그래서 다음과 같은 명령어를 통해 설치할 수 있다.

 

sudo apt-get install nvidia-driver-515

 

하지만 다음과 같은 오류가 발생하였다.

Unable to fetch some archives, maybe run apt-get update or try with --fix-missing?

 

이런 오류 메세지를 낳는데, 이를 해결하는 방법으로 구글링 해보니까

 

sudo apt-get clean

sudo apt-get update

 

다음 방법을 가장 많이 권하셨다.

 

그래서 이 방법을 사용하다 sudo apt-get update 에서 문제가 발생하였다.

처음 GPG 에러에서 Key 어쩌고 문제가 발생했어서 이 오류를 해결하는 구글링을 열심히 찾은 결과

 

sudo apt-key adv --keyserver pgp.mit.edu --recv-keys {에러 메세지에 있는 key}

이걸 수행하였다.

그러더니 감사하게도 발급을 해주더라

 

그렇게 발급 받고 다시 sudo apt-get update 하니까 됬다.

 

그리고 나서 다시 그래픽 드라이버를 설치하려고

sudo apt-get install nvidia-driver-515 을 수행하고 설치가 됬다.

 

이후 sudo reboot 로 재부팅 해주고

 

다시 로그인 하고 확인해보니

감사하게 잘 됬고, 실제 pytorch에서도

 

잘 동작했다. 이후 모형 가중치를 가져와 validation 수행할 때도 다행히 문제 없이 잘 동작하였다.

 

그리고 중간에 작업하다가 갑자기 nvidia-smi에서 이런 문제가 발생했었다.

'ERR!'라는 문구가 뜨면서 동작하지 않는 것이다.

 

이는 아래 링크에 있는 가이드대로 조치를 수행하였고

https://superuser.com/questions/1459322/graphic-card-errornvidia-smi-prints-err-on-fan-and-usage-and-processes-ar

 

"Graphic card error(nvidia-smi prints "ERR!" on FAN and Usage)" and processes are not killed and gpu not being reset

I have a problem using a GPU in ubuntu server. Nvidia-smi prints "ERR!!" on FAN and Usage, GPU not being reset, processes are not killed I ran three programs using one GPU and found those progr...

superuser.com

( 구체적으로는 아래 방법을 수행하였다. )

재부팅 이후 다시 작업을 수행한 결과 무사히 잘 동작함을 확인할 수 있었다.

 

참고했던 링크들..! 공유해주셔서 정말 감사합니다!

https://codechacha.com/ko/install-nvidia-driver-ubuntu/

 

우분투 18.04 - NVIDIA 드라이버를 설치하는 방법

Ubuntu 18.04에서 nvidia driver 설치하는 방법을 소개합니다. 그래픽 드라이버를 설치하는 방법은 ubuntu-drivers를 이용하여 자동으로 설치하는 방법과 드라이버 파일을 직접 다운받아 수동으로 설치하

codechacha.com

https://rain-bow.tistory.com/entry/CUDA-ERROR-nvidia-smi-has-failed-because-it-couldnt-communicate-with-the-nvidia-driver

 

[CUDA ERROR] nvidia-smi has failed because it couldn't communicate with the nvidia driver

딥러닝을 하시는 분들이 서버를 재부팅하는 과정에서 종종 볼 수 있는 ERROR 문구입니다.  nvidia-smi has failed because it couldn't communicate with the nvidia driver nvidia 그래픽 드라이버가 재부팅 과..

rain-bow.tistory.com

https://class-programming.tistory.com/16

 

Unable to fetch some archives, maybe run apt-get update or try with --fix-missing

 /etc/apt/sources.list 에서 확인해보니 서버가 죽어있었음. 서버를 변경해줘도 되지만 그냥 apt.lists 를 다 지웠다 업뎃함 Try removing content of /var/lib/apt/lists directory: sudo rm -rf /var/lib/ap..

class-programming.tistory.com

https://cryptosalamander.tistory.com/87

 

[Ubuntu / 우분투]apt update 에러 해결 법

apt-install update 에러 해결법 Ubuntu에서 apt update를 진행하려고 하는데 아래와 같은 에러가 발생하였다. N: Updating from such a repository can't be done securely, and is therefore disa..

cryptosalamander.tistory.com

https://dreamlog.tistory.com/76

 

apt-get update에서 발생하는 GPG public key 오류 해결 방법.

Linux를 사용 중 프로그램을 설치와 삭제를 반복하면 아래와 같은 오류가 발생한다. W: GPG 오류: http://ppa.launchpad.net natty Release: 다음 서명들은 공개키가 없기 때문에 인증할 수 없습니다: NO_PUBKEY ..

dreamlog.tistory.com

]https://md-online.tistory.com/entry/LinuxUbuntuNvidia-version-%ED%99%95%EC%9D%B8

 

Ubuntu/Nvidia version 확인

우분투에서 NVIDIA 드라이버 버전 확인 하는 방법을 노트합니다. 제가 가지고 있는 우분투의 버전은 Ubuntu 18.04.5 LTS로 아래 명령어를 통해 확인 할 수 있습니다. $ lsb_release -a No LSB modules are av..

md-online.tistory.com

https://bluecolorsky.tistory.com/52

 

[정보] nvidia-smi 실행 시 couldn't communicate with the NVIDIA driver 오류 해결하기

최근 딥러닝이 대세가 되면서 많은 곳에서 딥러닝 기술을 개발하거나 제품에 적용하고 있다. 딥러닝으로 데이터를 입력하여 출력을 얻기 위해서는 많은 컴퓨팅 자원이 필요하며, 특히 GPU가 대

bluecolorsky.tistory.com