일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- VS Code
- 프로그래머스
- windows forms
- paramiko
- 기타 연주
- 컨테이너
- error
- Visual Studio
- C++
- pytorch
- SSH
- JSON
- Linux
- pip
- ubuntu
- 오류
- OpenCV
- Numpy
- 채보
- pandas
- C#
- mysql
- 핑거스타일
- Python
- LIST
- Docker
- YOLO
- label
- Selenium
- C
- Today
- Total
기계는 거짓말하지 않는다
Kubernetes Pod Docker 컨테이너 내에서 nvidia-smi Failed to initialize NVML: Unknown Error 본문
Kubernetes Pod Docker 컨테이너 내에서 nvidia-smi Failed to initialize NVML: Unknown Error
KillinTime 2024. 11. 30. 23:30쿠버네티스 파드의 도커 컨테이너 내에서 nvidia-smi를 입력했을 때, 간혹 아래의 오류를 보는 경우가 있다.
Failed to initialize NVML: Unknown Error
컨테이너를 정지했다가 재시작하면 동작하긴 하지만 근본적인 해결법이 아니다.
오랫동안 많은 고민을 했지만 다른 방법으로도 해결하진 못했다.
/etc/nvidia-container-runtime/config.toml에서 no-cgroups = false를 설정하거나,
/etc/docker/daemon.json에서 "exec-opts": ["native.cgroupdriver=cgroupfs"] 추가 등으로도 해결되지 않았다.
해결법은 Deployment의 yaml 설정 파일에서 privileged를 true로 설정하거나(권장하지 않음),
containers 필드에서 securityContext의 capabilities를 추가한다.
privileged를 활성화하면 컨테이너를 호스트와 동일한 수준의 권한으로 실행하므로 보안상 취약할 수 있다.
CAP_SYS_ADMIN 하나만 추가해 주어도 가능할 것으로 보이지만,
CAP_SYS_RESOURCE와 CAP_DAC_READ_SEARCH도 추가하였다.
이후에 1달가량 파드의 컨테이너가 동작 중이었지만 테스트 시 같은 문제는 발생하지 않았다.
Linux Capabilities는 루트 권한(superuser privilege)을 세분화하여,
프로세스나 컨테이너가 특정 시스템 작업만 수행할 수 있도록 권한을 분리한다.
capabilities(7) - Linux manual page
capabilities(7) - Linux manual page
capabilities(7) — Linux manual page Capabilities(7) Miscellaneous Information Manual Capabilities(7) NAME top capabilities - overview of Linux capabilities DESCRIPTION top For the purpose of performing permission checks, tradition
man7.org