대규모 애플리케이션 환경에서 장애 대응은 여전히 개발자의 직관과 수작업 분석에 의존한다. 코드 커밋 속도는 높아졌지만, 오류 원인 분석과 복구 과정은 비효율적이다. MIT와 펜실베이니아대 연구에 따르면 생성AI의 도입으로 주간 코드 커밋이 13.5% 증가했음에도, 운영 중 장애 해결은 평균 복구 시간(MTTR)을 단축시키지 못했다. 

시스템 복잡성이 커지며 관찰(Observability) 데이터가 쏟아지는 가운데, 어디서부터 원인을 추적해야 하는가는 여전히 개발자의 판단에 달려 있다. 이 는 대규모 클라우드 환경의 가시성 확보와 운영 효율을 가로막는다.

관찰 플랫폼 기업 크로노스피어(Chronosphere)가 ‘AI 가이드 트러블슈팅(AI-Guided Troubleshooting)’ 기능을 공개했다고 밝혔다.

이 기능은 생성AI의 추론 능력에 ‘템포럴 지식 그래프(Temporal Knowledge Graph)’를 결합해, 시스템의 시간적·구조적 변화를 반영한 맥락 인식형 분석을 수행한다. 이는 서비스, 인프라, 텔레메트리 데이터를 실시간으로 연결해 문제의 연관 관계를 시각적으로 파악하고, 정확한 근본 원인을 도출한다. 시스템 변화와 인간의 입력까지 반영하는 동적 인과 모델을 통해 AI의 판단 근거를 투명하게 제시한다.

데이터 기반 ‘제안·기록·질의’ 기능으로 조사 효율 극대화

AI 가이드 트러블슈팅에는 네 가지 핵심 기능이 포함된다.

① 제안(Suggestions) 기능은 AI가 데이터 근거를 바탕으로 가능성이 높은 원인을 평이한 언어로 제시한다. 개발자는 추측이 아닌 데이터 기반 경로를 따라 원인을 좁혀갈 수 있다.

② 템포럴 지식 그래프는 모든 서비스, 종속 관계, 커스텀 텔레메트리를 지속적으로 업데이트해 시스템의 전체 맥락을 유지한다.

③ 인베스티게이션 노트북(Investigation Notebooks)는 조사 단계별로 근거와 결론을 기록해, 조직의 문제 해결 지식을 자산화한다.

④ 자연어 어시스턴트(Natural Language Assistance)는 자연어 질의를 통해 대시보드나 쿼리를 구성할 수 있어 데이터 탐색 속도를 높인다. 이 모든 과정에서 AI는 분석 결과와 제외된 가설을 명시해, 사용자가 AI 판단을 신뢰하면서도 통제권을 유지할 수 있다.

MCP 서버 통합으로 AI 워크플로 연결

크로노스피어는 이번 발표와 함께 MCP 서버를 공개했다. 이를 통해 개발자와 엔지니어는 코덱스(Codex), 프롬프트IDE(PromptIDE) 등 AI 지원 IDE 환경에서 직접 크로노스피어 데이터를 안전하게 조회하고, 내부 생성AI 워크플로와 통합할 수 있다.

MCP 통합은 현재 모든 고객에게 제공되며, AI 가이드 트러블슈팅의 제안 및 조사 노트북 기능은 현재 제한적 제공 단계로, 2026년 정식 출시될 예정이다.

크로노스피어 공동창업자이자 최고경영자(CEO) 마틴 마오(Martin Mao)는 “관찰 영역에서 AI가 효과를 발휘하려면 단순한 패턴 인식이나 요약을 넘어, 시스템의 맥락을 이해할 수 있어야 한다.”라며 “템포럴 지식 그래프를 통해 AI가 관찰 데이터를 이해하도록 만들어, 개발자에게 신뢰할 수 있는 가이드를 제공한다.”라고 말했다.

저작권자 © 지티티코리아 무단전재 및 재배포 금지