최근 온라인 서비스와 AI 기반 애플리케이션의 출시 주기가 단축되면서, 시스템 신뢰성 확보가 기업 운영의 핵심 과제로 떠오르고 있다. 최신 도라(DORA) 보고서에 따르면 AI 코딩 어시스턴트를 활용해 코드가 프로덕션에 배포되는 속도가 70% 빨라졌지만, 그만큼 오류·버그·성능 저하 등으로 인한 대규모 장애 위험도 커지고 있다.

특히 복잡한 아키텍처와 다수의 클라우드·서드파티 서비스 의존 환경에서는 사전 대비 없는 운영이 심각한 비즈니스 리스크로 직결된다.

카오스 엔지니어링 전문 기업 그렘린(Gremlin)이 ‘리라이어빌리티 인텔리전스(Reliability Intelligence)’를 공식 발표했다. 

리라이어빌리티 인텔리전스는 AI 기반 분석과 자동화 실험을 결합해 시스템의 신뢰성 문제를 조기에 발견·해결하며, LLM 연동을 위한 모델 컨텍스트 프로토콜(MCP) 서버를 제공한다. 이를 통해 온라인 비즈니스의 다운타임을 줄이고 성능을 높일 수 있다.

자동화된 실험 분석, MCP 서버 기반 데이터 탐색

이 솔루션은 기존의 자동화 장애 주입 테스트 결과 분석을 엔지니어 수동 작업에 의존하던 방식에서 벗어나, 과거 성능 기준과 비교해 이상 행동을 자동 탐지하고 실패 원인을 분석한다. 이를 통해 테스트 실패 이유를 명확히 하고, 실제 서비스 환경에서 재발을 방지하는 근거 데이터를 제공한다.

또한 수백만 건의 테스트 데이터와 업계 모범사례를 학습한 AI가 실패한 테스트 이후 구체적 해결 방안을 제시한다. 이는 코드 수정, 모니터링 알림 조정, 의존성 구성 변경 등 문제 유형에 따라 최적화된 조치로 이어지며, 숙련된 SRE 인력 부족 문제를 완화한다.

사용자는 MCP 서버를 통해 선호하는 LLM과 연동해 데이터 질의, 인사이트 도출, 맞춤형 대시보드 생성을 할 수 있다. 이를 통해 장애 원인 파악, 성능 병목 분석, 시스템 의존성 시각화 등 고급 분석을 신속히 수행할 수 있다.

리라이어빌리티 인텔리전스는 카오스 엔지니어링 경험과 AI 분석을 결합해, 복잡한 시스템 운영의 고난도 신뢰성 관리 과제를 자동화하는 솔루션이다. SRE 전문성 부족과 서비스 복잡성 증가라는 산업 전반의 과제를 동시에 해결하며, 향후 AI 도입 가속화 속에서도 안정적 서비스 운영을 가능하게 할 전망이다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지