멀티 테넌트 LLM 서빙 실무: NVIDIA MIG·vGPU로 GPU 자원 격리하는 방법
NVIDIA MIG와 vGPU 기반 GPU 분할 기술을 활용해 단일 고스펙 GPU 자원을 여러 부서, 서비스, 모델 엔드포인트가 안전하게 나누어 쓰는 실무형 설계 방법을 정리합니다. 단순히 하나의 GPU 위에 여러 vLLM 인스턴스를 올리는 방식은 초기에는 편해 보이지만, 장문 프롬프트 유입, KV 캐시 급증, 특정 테넌트의 버스트 트래픽이 겹치면 레이턴시 튐과 OOM 전이가 발생할 수 있습니다. 이전 리포트인 LLM 서버리스 서빙 실무: KServe·Knative 기반 콜드 스타트 단축과 GPU 비용 최적화 전략 이 시간차 트래픽을 줄여 유휴 GPU 비용을 회수하는 접근이었다면, 이번 글에서는 물리 GPU 내부를 MIG 인스턴스나 vGPU 단위로 나누어 멀티 테넌트 추론 인프라의 예측 가능성과 자원 격리 수준을 높이는 방법을 다룹니다. 이 글에서 바로 확인할 수 있는 내용 여러 vLLM 프로세스가 같은 GPU를 공유할 때 발생하는 noisy neighbor, KV 캐시 압박, OOM 전이 위험을 파악합니다. NVIDIA MIG, vGPU, time-slicing, MPS의 차이를 실무 관점에서 구분합니다. A100 80GB와 H100 80GB에서 20GB급 MIG 슬라이스를 구성할 때 주의해야 할 프로파일명을 정리합니다. Kubernetes Device Plugin에서 MIG 리소스가 어떻게 노출되는지 확인하고, vLLM 파드에 안전하게 바인딩하는 방법을 설명합니다. 작은 LLM 여러 개를 한 장의 GPU에 배치할 때 필요한 ResourceQuota, NodeAffinity, HPA 제한값을 설계합니다. MIG 프로파일 미스매치, NCCL 병렬화 실패, 특정 테넌트 트래픽 폭증, 모니터링 누락 문제를 트러블슈팅합니다. 1. 왜 LLM 멀티 테넌트 서빙에 GPU 자원 격리가 필요할까? L...