기계는 거짓말하지 않는다

Kubernetes Pod Docker 컨테이너 내에서 nvidia-smi Failed to initialize NVML: Unknown Error 본문

Container Tools/Kubernetes

Kubernetes Pod Docker 컨테이너 내에서 nvidia-smi Failed to initialize NVML: Unknown Error

KillinTime 2024. 11. 30. 23:30

쿠버네티스 파드의 도커 컨테이너 내에서 nvidia-smi를 입력했을 때, 간혹 아래의 오류를 보는 경우가 있다.

Failed to initialize NVML: Unknown Error

컨테이너를 정지했다가 재시작하면 동작하긴 하지만 근본적인 해결법이 아니다.

오랫동안 많은 고민을 했지만 다른 방법으로도 해결하진 못했다.

/etc/nvidia-container-runtime/config.toml에서 no-cgroups = false를 설정하거나,

/etc/docker/daemon.json에서 "exec-opts": ["native.cgroupdriver=cgroupfs"] 추가 등으로도 해결되지 않았다.

 

해결법은 Deployment의 yaml 설정 파일에서 privileged를 true로 설정하거나(권장하지 않음),

containers 필드에서 securityContext의 capabilities를 추가한다.

privileged를 활성화하면 컨테이너를 호스트와 동일한 수준의 권한으로 실행하므로 보안상 취약할 수 있다.

 

Deployment yaml 설정 파일 중

CAP_SYS_ADMIN 하나만 추가해 주어도 가능할 것으로 보이지만,

CAP_SYS_RESOURCE와 CAP_DAC_READ_SEARCH도 추가하였다.

이후에 1달가량 파드의 컨테이너가 동작 중이었지만 테스트 시 같은 문제는 발생하지 않았다.

 

Linux Capabilities는 루트 권한(superuser privilege)을 세분화하여, 

프로세스나 컨테이너가 특정 시스템 작업만 수행할 수 있도록 권한을 분리한다.

capabilities(7) - Linux manual page

 

capabilities(7) - Linux manual page

capabilities(7) — Linux manual page Capabilities(7) Miscellaneous Information Manual Capabilities(7) NAME         top capabilities - overview of Linux capabilities DESCRIPTION         top For the purpose of performing permission checks, tradition

man7.org

 

Comments