기업들이 AWS 기반의 대규모 분산 환경을 운영하는 과정에서 경보 설정, 메트릭 해석, 로그 분석이 많은 시간과 인력을 필요하다. 마이크로서비스 기반 애플리케이션이 늘어나면서 운영팀은 장애 징후를 조기에 포착하기 어려워졌고, 하루에도 수백 건의 경보·티켓·운영 요청이 누적되는 상황에서 실제 필요한 정보만 걸러내는 데 큰 부담이 생겼다.

특히 SRE와 데브옵스(DevOps) 조직은 생산성보다 반복 작업과 도구 간 컨텍스트 이동에 시간을 빼앗기고 있어 운영 효율을 높일 기술적 대안이 절실해졌다.

클라우드 운영 자동화 기업 얼럿디(AlertD)가 AWS 환경의 복잡성을 줄이고 실시간 가시성을 제공하는 자연어 질의 기반 AI SRE·데브옵스 플랫폼을 공식 출시했다고 밝혔다.

기존 관측·알림 체계 한계 보완

얼럿디는 기존 관측도구와 AI옵스(AIOps) 기술이 제공하지 못했던 즉각적 맥락 파악과 사전적 대응 능력을 강화한다. 기존 도구들이 풍부한 계측값을 제공하더라도 알림 구성과 조기 징후 탐지가 여전히 수작업 중심이었다. 

얼럿디는 LLM(대규모 언어 모델) 기술이 이를 개선할 수 있다는 판단 아래, 운영팀이 방대한 AWS 메트릭·로그·리소스 정보를 즉시 해석하고 검증 가능한 인사이트를 얻을 수 있도록 플랫폼을 설계했다.

AWS 운영 전 주기를 다루는 멀티 목적 AI 에이전트

얼럿디의 플랫폼은 선제적·사후적 운영 전반을 아우르는 멀티 목적 AI 에이전트 구조다.

‘AI SRE·데브옵스 에이전트’는 보안·비용·컴플라이언스·트러블슈팅·계정·인프라 관리 등 특정 운영 업무에 최적화된 형태로, 자동으로 메트릭과 리소스를 분석한다. 자연어 인터페이스를 통해 별도의 스크립트 없이 AWS 환경을 조회할 수 있으며, 복잡한 메트릭 조합도 평문 질의로 요청 가능하다.

선제적·사후적 운영 기능은 AWS 리소스·메트릭을 분석해 보안 위험, 비용 이상치, 규정 준수 문제, 리소스 비효율 등 다양한 운영 포인트를 표면화한다.

팀 협업 기능을 통해 운영 인사이트·질의·관찰 내용을 조직 내 다른 팀과 공유할 수 있다. AI 투명성 기능은 에이전트가 어떤 데이터를 기반으로 어떤 추론을 했는지 명확히 보여주며, 사용자가 결과를 직접 검증할 수 있도록 한다.

강화된 검색 기능은 AWS 메트릭·리소스를 세밀하게 탐색하며 추가 분석이 필요한 구간을 빠르게 식별한다. AWS VPC 내 배포 기능을 제공해 조직이 데이터 소유권을 온전히 유지한 상태에서 플랫폼을 사용할 수 있다. LLM 아그노스틱 구조는 오픈AI(OpenAI)·앤트로픽(Anthropic)·메타(Meta) 등의 모델을 선택해 사용할 수 있도록 구성됐다.

이 모든 기능은 기존 운영 툴과 병행 사용되며, 복잡한 모니터링·로그 시스템을 교체하지 않고도 자동화 역량을 확장할 수 있다.

얼럿디는 중견·대규모 기업의 실제 SRE·데브옵스 조직과 협업하며 플랫폼을 개발했다. 프라이비티어(Privateer)의 데브옵스 총괄 라이언 레인스(Ryan Raines)는 “운영팀이 전체 업무의 절반 가까이를 저가치 반복 작업에 쓰고 있으며, 이는 인력의 역량 부족이 아니라 도구 복잡도 때문”이라며 “개발자가 AI 코파일럿으로 코딩 속도를 높였듯이, SRE·데브옵스 역시 AI 기반 자동화를 도입해야 한다.”라며 얼럿디와의 협력을 선택한 이유를 언급했다.

얼럿디 공동창업자 프레디 망굼(Freddy Mangum) COO는 “개발자가 지급 단계에서 코파일럿을 활용하듯, 운영 단계에서는 얼럿디가 ‘업타임을 위한 슬랙(Slack for production uptime)’이 되는 것을 목표로 한다.”고 말했다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지