GPU는 단순한 컴퓨팅 리소스를 넘어 이제는 기업 경쟁력의 기반이 되는 전략적 자산이다. 분산도가 높은 AI 인프라 환경에서는 서비스 장애 발생 시 영향 범위가 기하급수적으로 커지고, GPU 수명도 일반적으로 1-3년으로 짧기 때문에 자원을 얼마나 효율적으로 활용하느냐가 중요한 과제다.  많은 기업들이 여전히 GPU 상태를 제대로 관측하지 못해 큰 손실을 겪고 있다. 따라서 GPU 자원 사용을 최적화할 수 있는 솔루션이 중요해지고 있다.

옵저버빌리티 기업 와탭랩스(대표 이동인)가 AI 시대의 핵심 비전 ‘AI 네이티브 옵저버빌리티(AI-native observability)’의 일환으로 ‘와탭 GPU 모니터링’ 솔루션을 출시했다고 18일 밝혔다. 

AI 네이티브 옵저버빌리티는 데이터 수집부터 해석, 자동화, 사용자 경험까지 모든 과정을 A로 설계하고, 이를 기반으로 개발과 업데이트를 수행하는 AI 중심의 관측 구조다. 단순히 AI 기능을 보완한 수준의 모니터링과는 근본적인 차이를 가진다. 

와탭랩스는 AI 네이티브 옵저버빌리티의 첫 단계로, AI 인프라의 핵심 자산인 GPU 자원을 가시화하고 실시간으로 모니터링할 수 있는 GPU 모니터링 솔루션을 공개했다.  

와탭 GPU 모니터링 대시보드 화면
와탭 GPU 모니터링 대시보드 화면

와탭 GPU 모니터링은 ▲GPU 활용률 ▲메모리 사용량 ▲온도 ▲전력 소비 등 주요 지표를 통합적으로 관측해 자원 낭비 없이 운영을 최적화한다. 쿠버네티스(Kubernetes) 기반의 복잡한 환경에서도 실시간 모니터링, 경고 알림, 장기적 분석 기능을 제공하며, SaaS와 온프레미스를 아우르는 하이브리드 환경에서도 안정적으로 작동한다. 

와탭 GPU 모니터링은 단순 사용률 수치 기반의 모니터링을 넘어, GPU부터 파드(Pod), 애플리케이션까지 연결된 종합적인 인사이트를 제공한다. 특히, MIG(Multi-instance GPU) 및 쿠버네티스 연동이 미흡한 일반적인 솔루션과 달리, 와탭은 MIG·파드(Pod)·노드(Node)의 연결 관계를 시각화해 자원 추적을 용이하게 한다.

이를 통해 실시간 모니터링과 장애 알림, 근본 원인 진단, 자원 최적화, 그리고 IT 인프라 운영팀과 개발팀 간 통합 정보 공유를 통한 협업 최적화까지 전방위적인 운영 개선이 가능하다.

한편, 와탭랩스는 AI 네이티브 전략의 일환으로, AI옵스(AIOps)와 오픈 소스 모니터링 도구 지원 서비스 개발에도 집중하고 있다. 현재 1만 2천개 이상의 고객사 프로젝트를 퍼블릭 SaaS 형태로 제공하고 있으며, 앞으로도 국내외 기업의 AI 경쟁력 강화와 운영 효율화를 위한 협업을 지속 확대해 나갈 방침이다.

와탭랩스 이동인 대표는 “와탭랩스는 실제 고객사들과 협업하며 현장에서 발생하는 GPU 운영 문제를 기반으로 고객의 니즈에 맞춰 전체 인프라 안에서 GPU까지 통합 관측이 가능한 환경을 구축했다.”라며 “이번 GPU 모니터링을 시작으로, AI 기술이 내재된 다양한 제품군을 선보이며 새로운 IT 운영 환경의 표준을 제시하고, 기업의 비즈니스 성장 지원을 더욱 강화해 나갈 것”이라고 말했다.

 

[알림] GTT KOREA GTT SHOW는 오는 8월 12일 오후 2시부터 3시까지 “피해 큰 BFPdoor 같은 커널 기반 악성코드 막는 EDR과 마이크로세그멘테이션 실전 보안 전략”을 주제로 웨비나를 진행합니다. BPFdoor 같은 커널 기반의 악성코드가 사용하는 공격 기법과 침투 단계별 위협의 소개, EDR과 마이크로세그멘테이션이 어떻게 상호보완적으로 작동하여 침입 초기 탐지부터 내부 확산 차단까지 이어지는 보안 체계의 구축 전략과 새로운 형태의 변종 공격에 유연하게 대응하는 제로 트러스트 기반 보안 전략을 실전 사례와 함께 제시합니다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지