Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- Docker
- OpenCV
- Numpy
- pandas
- 명령어
- LIST
- 채보
- pip
- mysql
- Selenium
- JSON
- Python
- Visual Studio
- 오류
- pytorch
- windows forms
- C#
- label
- 핑거스타일
- error
- 기타 연주
- C++
- SSH
- 프로그래머스
- ubuntu
- C
- paramiko
- Linux
- VS Code
- YOLO
Archives
- Today
- Total
기계는 거짓말하지 않는다
Kubernetes Pod Docker 컨테이너 내에서 nvidia-smi Failed to initialize NVML: Unknown Error 본문
Container Tools/Kubernetes
Kubernetes Pod Docker 컨테이너 내에서 nvidia-smi Failed to initialize NVML: Unknown Error
KillinTime 2024. 11. 30. 23:30쿠버네티스 파드의 도커 컨테이너 내에서 nvidia-smi를 입력했을 때, 간혹 아래의 오류를 보는 경우가 있다.
Failed to initialize NVML: Unknown Error
컨테이너를 정지했다가 재시작하면 동작하긴 하지만 근본적인 해결법이 아니다.
오랫동안 많은 고민을 했지만 다른 방법으로도 해결하진 못했다.
/etc/nvidia-container-runtime/config.toml에서 no-cgroups = false를 설정하거나,
/etc/docker/daemon.json에서 "exec-opts": ["native.cgroupdriver=cgroupfs"] 추가 등으로도 해결되지 않았다.
해결법은 Deployment의 yaml 설정 파일에서 privileged를 true로 설정하거나(권장하지 않음),
containers 필드에서 securityContext의 capabilities를 추가한다.
privileged를 활성화하면 컨테이너를 호스트와 동일한 수준의 권한으로 실행하므로 보안상 취약할 수 있다.
CAP_SYS_ADMIN 하나만 추가해 주어도 가능할 것으로 보이지만,
CAP_SYS_RESOURCE와 CAP_DAC_READ_SEARCH도 추가하였다.
이후에 1달가량 파드의 컨테이너가 동작 중이었지만 테스트 시 같은 문제는 발생하지 않았다.
Linux Capabilities는 루트 권한(superuser privilege)을 세분화하여,
프로세스나 컨테이너가 특정 시스템 작업만 수행할 수 있도록 권한을 분리한다.
capabilities(7) - Linux manual page
Comments