AI 인프라 기업인 네비우스(Nebius)가 최신 머신러닝(ML) 및 고성능 컴퓨팅(HPC) 환경에서 워크로드 관리와 오케스트레이션을 최적화하기 위해 설계된 슬럼(Slurm)용 풀 기능을 갖춘 쿠버네티스 운영자인 ‘소퍼레이터(Soperator)’를 오픈소스로 출시했다.
소퍼레이터는 대규모 HPC 클러스터 관리를 위해 설계된 작업 오케스트레이터인 슬럼의 강점과 쿠버네티스의 유연하고 확장 가능한 컨테이너 오케스트레이션을 결합하기 위해 네비우스가 개발했다. 이는 컴퓨팅 집약적인 환경, 특히 GPU 중심 워크로드에서 작업할 때 단순성과 효율적인 작업 스케줄링을 제공하여 ML 훈련 및 분산 컴퓨팅 작업에 적합하다.

향상된 스케줄링 및 오케스트레이션 기능으로 소퍼레이터는 대규모 컴퓨팅 클러스터 전반에 걸쳐 정밀한 워크로드 분배를 제공하여 GPU 리소스 사용을 최적화하고 병렬 작업 실행을 가능하게 한다. 이는 유휴 GPU 용량을 최소화하고 비용을 최적화하며 더 효율적인 협업을 촉진하여 대규모 ML 프로젝트에 참여하는 팀들에게 중요한 도구가 된다.
내결함성 훈련 기능으로 GPU 상태를 모니터링하는 하드웨어 상태 점검 메커니즘을 포함하고 있어 하드웨어 문제 발생 시 자동으로 리소스를 재할당한다. 이는 고도로 분산된 환경에서도 훈련 안정성을 향상시키고 작업 완료에 필요한 GPU 시간을 줄인다.
클러스터 관리도 간소화됐다. 모든 클러스터 노드에 걸쳐 공유 루트 파일 시스템을 갖춤으로써 소퍼레이터는 다중 노드 설치에서 동일한 상태를 유지하는 과제를 해결한다. 테라폼 오퍼레이터(Terraform Operator)와 함께 사용하면 사용자 경험을 단순화하여 ML팀이 광범위한 데브옵스에 대한 전문 지식 없이도 핵심 작업에 집중할 수 있다.
네비우스 클라우드 플랫폼의 제품 관리 책임자인 나렉 타테보시안(Narek Tatevosyan)은 “네비우스는 소퍼레이터를 오픈소스 솔루션으로 출시함으로써 ML과 HPC 커뮤니티에 강력한 새로운 도구를 제공하고자 한다. 이 기술이 어떻게 계속 발전하여 AI 전문가들이 모델 개선과 새로운 제품 개발에 집중할 수 있게 할지 기대된다.”라고 말했다.
관련기사
- 온프레미스·클라우드 전방위 인프라 지원 기업용 PDF 솔루션...호환성·보안성·규제준수↑
- 쿠버네티스 지원 ‘범용 마이크로세그멘테이션’...보안성·관리효율·경제성↑
- 엔드 투 엔드 HCI 구축은 기업 경쟁력 강화 핵심
- 간편하고 비용 효율적인 GPU 활용전략
- “애플리케이션 배포에 클라우드 네이티브 도입 급증”
- “퓨어스토리지의 혁신은 구독형 스토리지 STaaS로 AI 및 사이버 복원력 향상”
- 보안 걱정 해결하는 ‘쿠버네티스 보안 검증 솔루션’
- 클라우드 네이티브 환경 보호하는 행동기반 탐지·대응 솔루션
- LLM 구축 비용 ‘자동 절감’ 솔루션
- DDI, 두산그룹 제조공장에 ‘OT 보안’ 도입
- AI 시대에 필요한 팀과 리더의 핵심 역량
- 기업용 ‘클라우드 기반’ 서비스, 보안성·운영 효율성 향상
- ‘AI 기반 구글 머천트 센터 데이터 피드 최적화 전략’... 제품 참여도·판매 전환율↑
- 솔트웨어, 통합 클라우드 관리 플랫폼 ‘U-CMP’ 선봬
- 협업 환경 보호하는 통합 보안 솔루션
- AI 투자 극대화 핵심 “견고하고 지속가능한 인프라”
- 쿠버네티스 환경의 데이터 관리 강화 방안
- 가장 효과 높은 제품 출시 전략 ‘최소 기능 제품(MVP)’…비용절감·신속한 개선·투자유치↑
- [기고] AI 시대의 제품 관리자 역량 강화 전략
- AI 기반 데브옵스 최적화 도구 ‘리더십 대시보드’…개발 생산성과 ROI 극대화
- 컨테이너 환경의 쿠버네티스 운영 간소화하는 ‘틴트리 VM스토어’
