AI 학습과 추론에 필요한 GPU 인프라 규모가 폭발적으로 커지면서, 이를 효율적으로 관리·운영하는 기술이 AI 산업의 핵심 인프라로 부상하고 있다. 특히 클라우드 네이티브 환경에서 GPU 자원의 최적화를 지원하는 오케스트레이션 기술은 대규모 AI 모델 학습과 배포의 효율성을 좌우한다.

AI 인프라 전문 기업 래블업(Lablup)이 오는 11월 10일부터 13일까지 미국 애틀란타에서 열리는 ‘큐브콘+클라우드네이티브 노스 아메리카 2025(KubeCon + CloudNativeCon North America 2025)’에 참가한다고 7일 밝혔다.

래블업은 이번 행사에서 클라우드 네이티브 기반 AI 인프라 운영 플랫폼 ‘백엔드닷AI(Backend.AI)’를 중심으로 복잡한 GPU 인프라를 효율적으로 운영할 수 있는 기술을 선보인다. 백엔드닷AI는 클라우드와 온프레미스 환경 모두에서 AI 모델 개발·학습·배포를 위한 연산 자원을 효율적으로 관리하고 제공하는 플랫폼이다.

쿠버네티스 통합으로 AI 워크로드 유연성 극대화

백엔드닷AI의 핵심 기술은 GPU 오케스트레이션 엔진 ‘소코반(Sokovan)’이다. 이 엔진은 수천 개의 GPU 노드에서 워크로드를 스케줄링하고 자원을 자동으로 관리하며 ▲다양한 가속기 지원 ▲실시간 장애 복구 ▲자원 자동 할당 기능을 제공한다. 이를 통해 대규모 인프라 환경에서도 안정적인 AI 서비스 운영이 가능하다.

이번 행사에서 래블업은 백엔드닷AI와 쿠버네티스의 통합 기술을 중심으로 클라우드 네이티브 환경에서의 GPU 인프라 확장 전략을 제시한다. 쿠버네티스 네이티브 확장을 통해 GPU 기반 AI 워크로드를 유연하게 관리할 수 있으며, 데이터 과학자와 엔지니어는 인프라 설정의 복잡성을 줄이고 모델 개발에 집중할 수 있다.

래블업은 이미 다양한 기관의 GPU 인프라를 백엔드닷AI로 운영하고 있다. 최근 국가 파운데이션 모델 개발 프로젝트에서 500장 규모의 엔비디아(NVIDIA) HGX B200 GPU를 운영하며, 백엔드닷AI와 소코반의 확장성과 안정성을 검증했다. 자동 복구 및 워크로드 재배치 기능을 통해 장애 발생 시에도 운영 중단 시간을 최소화하며, 초대형 GPU 클러스터 환경에서의 신뢰성을 입증했다.

래블업은 이번 참가를 통해 글로벌 클라우드 네이티브 커뮤니티와의 기술 협력 네트워크를 강화할 계획이다. 특히 쿠버네티스 생태계 내에서 GPU 자원 운영의 새로운 표준을 제시하며, AI 인프라 산업의 발전 방향을 함께 모색할 방침이다.

래블업 김준기 최고기술책임자(CTO)는 “쿠버네티스 통합을 통해 AI 워크로드의 유연성과 생태계 확장성을 결합, 클라우드 네이티브 환경에서도 안정적인 인프라 운영이 가능하게 될 것”이라며 “AI 인프라 산업은 이제 에너지와 국가 인프라 차원의 접근이 필요한 시점”이라고 말했다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지