AI 인프라 기업인 네비우스(Nebius)가 최신 머신러닝(ML) 및 고성능 컴퓨팅(HPC) 환경에서 워크로드 관리와 오케스트레이션을 최적화하기 위해 설계된 슬럼(Slurm)용 풀 기능을 갖춘 쿠버네티스 운영자인 ‘소퍼레이터(Soperator)’를 오픈소스로 출시했다.

소퍼레이터는 대규모 HPC 클러스터 관리를 위해 설계된 작업 오케스트레이터인 슬럼의 강점과 쿠버네티스의 유연하고 확장 가능한 컨테이너 오케스트레이션을 결합하기 위해 네비우스가 개발했다. 이는 컴퓨팅 집약적인 환경, 특히 GPU 중심 워크로드에서 작업할 때 단순성과 효율적인 작업 스케줄링을 제공하여 ML 훈련 및 분산 컴퓨팅 작업에 적합하다.

향상된 스케줄링 및 오케스트레이션 기능으로 소퍼레이터는 대규모 컴퓨팅 클러스터 전반에 걸쳐 정밀한 워크로드 분배를 제공하여 GPU 리소스 사용을 최적화하고 병렬 작업 실행을 가능하게 한다. 이는 유휴 GPU 용량을 최소화하고 비용을 최적화하며 더 효율적인 협업을 촉진하여 대규모 ML 프로젝트에 참여하는 팀들에게 중요한 도구가 된다.

내결함성 훈련 기능으로 GPU 상태를 모니터링하는 하드웨어 상태 점검 메커니즘을 포함하고 있어 하드웨어 문제 발생 시 자동으로 리소스를 재할당한다. 이는 고도로 분산된 환경에서도 훈련 안정성을 향상시키고 작업 완료에 필요한 GPU 시간을 줄인다.

클러스터 관리도 간소화됐다. 모든 클러스터 노드에 걸쳐 공유 루트 파일 시스템을 갖춤으로써 소퍼레이터는 다중 노드 설치에서 동일한 상태를 유지하는 과제를 해결한다. 테라폼 오퍼레이터(Terraform Operator)와 함께 사용하면 사용자 경험을 단순화하여 ML팀이 광범위한 데브옵스에 대한 전문 지식 없이도 핵심 작업에 집중할 수 있다.

네비우스 클라우드 플랫폼의 제품 관리 책임자인 나렉 타테보시안(Narek Tatevosyan)은 “네비우스는 소퍼레이터를 오픈소스 솔루션으로 출시함으로써 ML과 HPC 커뮤니티에 강력한 새로운 도구를 제공하고자 한다. 이 기술이 어떻게 계속 발전하여 AI 전문가들이 모델 개선과 새로운 제품 개발에 집중할 수 있게 할지 기대된다.”라고 말했다.

 

[알림] GTT KOREA와 전자신문인터넷이 오는 9월 27일(금) 서울 양재동 엘타워 그레이스홀(양재역)에서 공동으로 주최하는 “NABS(Next AI & Bigdata Summit) 2024”에서는 “비즈니스에 성공하는 AI & Big Data 혁신 전략”을 주제로 글로벌 AI와 빅데이터 산업을 이끌고 있는 글로벌 리더 기업들이 급변하는 기술과 비즈니스 환경에서 생산성과 효율성 및 비용 절감까지 조직과 비즈니스를 혁신할 수 있는 맞춤형 차세대 AI와 빅데이터 전략을 제시합니다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지