사이트 신뢰성 공학 SRE(Site Reliability Engineering)가 주목받고 있다. SRE는 시스템, 서비스 및 제품에서 적절한 수준의 안정성을 지속적으로 달성하도록 지원하는 엔지니어링 분야이다. 서비스의 인프라와 운영 관점의 문제를 소프트웨어 엔지니어링 기법을 통해 해결하고자 나온 개념으로, SRE의 주요 목표는 확장성과 고가용성을 확보한 소프트웨어를 만드는 것이다. 클라우드 도입이 가속되고 클라우드 네이티브 애플리케이션 활용이 확대되면서 디지털 서비스 운영 및 애플리케이션 개발에 중요한 핵심이 됐기 때문이다.

신뢰성과 보안성을 갖춘 클라우드 네이티브 애플리케이션 구동을 위한 SaaS 분석 플랫폼 수모 로직(Sumo Logic)이 글로벌 IT 커뮤니티 의견을 물은 설문 조사 Global SRE Pulse 2022 결과를 공개했다.

조사결과에 따르면 디지털 서비스와 애플리케이션을 구현할 핵심 운영 모델로 SRE(Site Reliability Engineering) 채택이 증하고 있다. SRE의 현 상태에 대한 기준을 수립하기 위한 이 조사는 DevOps Institute가 진행했다. 

수모 로직 설립 부사장이자 제품과 전략을 총괄하는 브루노 커틱(Bruno Kurtic)은 “디지털 서비스가 크게 성장하면서 SRE는 개발과 운영팀이 디지털 경험을 구현하기 위해 협업하는 필수 도구로 빠르게 진화했다. Global SRE Pulse는 현시대에 SRE 모델이 애플리케이션 성능 관리와 관찰성 프로그램에 더 큰 가치를 더해줄 수 있다는 점을 증명한다”며 “SRE는 미래의 기회를 포착하고, 성장을 주도할 특수한 그룹의 일부로 통합됐다”고 말했다.

SRE, 어디까지 왔나

우리 일상은 디지털 서비스로 구현되는 디지털 경험으로 가득 차 있다. 팬데믹 기간 가상과 하이브리드 업무 모델이 자리를 잡으면서, 기업들은 이전보다 더 많은 건강, 영상 커뮤니케이션, 금융 활동 등의 서비스를 제공하기 시작했다. 이런 흐름이 디지털 혁신을 이끌고 있으며, 그 속도는 가속하고 있다. 우리에게 필요한 이 혁신에 속도를 맞추기 위해 기업들은 SRE를 이용해 한층 강화된 디지털 경험을 구현하고 있다.

Global SRE Pulse 응답자들이 SRE를 채택하고 있다고 응답한 것은 놀라운 일이다. 응답자 62%가 자신의 소속 기관이 SRE 프로세스를 활용하고 있다고 답했다.

SRE 활용법에 대해서 19%는 IT 조직 전반에 걸쳐 SRE를 접목하고 있고, 55%는 제품 또는 서비스와 같이 특정 부서 내에서 SRE를 사용하며, 23%는 SRE를 시험 중이라고 답했다. 

응답자 2%는 ‘기타’를 선택했고, 단 1%만이 SRE 도입을 시도했으나 실패했다고 답했다.

DevOps Institute의 최고 연구 책임자 Eveline Oehrlich는 “SRE를 채택하면 디지털 혁신이 더 빨리 이뤄질 수 있도록 새 경험을 조성할 수 있다. 이번 연구는 SRE가 핵심적인 엔지니어링 기능이 됐다는 점을 증명했다”며 “이제 SRE는 디지털 시대에 성공하고 싶은 모든 기업의 기준이 돼야 한다”고 밝혔다.

SRE를 채택하는 이유

Global SRE Pulse에 따르면, 기업들은 다양한 이유로 SRE를 채택한다. 신뢰성과 보안성이 가장 많이 거론됐으며, 서비스 오류와 예기치 않은 정지 시간의 위험을 줄이는 것도 이 응답에 포함됐다(68%). 이밖에 신뢰할 수 있는 향상된 서비스로 경쟁력을 갖추는 것(65%), 사고 빈도와 심각성을 줄여 비즈니스팀 파트너들을 만족시키는 것(59%) 등의 응답이 뒤따랐다.

SRE를 채택하는 경향은 뚜렷하게 성장하고 있지만, 도메인과 데이터 사일로에 자동화 도구와 기술을 적용하는 데에는 여전히 어려움이 존재한다. 응답자들은 현재 SRE 팀 내에서 ITSM·티케팅 시스템(30%), 관찰성(29%), 모니터링과 성능 관리(29%), 환경 설정 관리(29%), 제품 출시 관리(27%), 보안 도구(26%) 등의 자동화 도구를 실행 중이라고 응답했다.

관찰성 솔루션은 SRE 팀이 복잡한 아키텍처와 소프트웨어 스택을 파악하는 데 필요한 가시성을 제공한다. 또 SRE 팀은 현재 또는 과거에 애플리케이션 성능 모니터링(79%), 이용 가능성, 가동 시간, 성능 모니터링(86%), 종합 처리 모니터링(60%) 등과 같이 전통적인 방식으로 모니터링 업무를 진행했다고 응답했다.

Global SRE Pulse에 참여한 응답자들은 웹 성능(25%), 실제 사용자 모니터링(24%), 보안(24%), 사업 활동 모니터링(23%) 등 다른 유형의 모니터링을 실시하고 있다고도 응답했다.

Kurtic은 “애플리케이션 첨단화가 점차 빨라지면서 SRE 역시 제품 출시 시기를 앞당겨야 한다는 압박을 받고 있다. 이를 위해 기업들은 성능, 보안성, 신뢰성 지표에 따라 서비스를 관리해야 할 필요가 있다”며 “SRE이 더 많이 채택된다면 여러 사일로가 제거돼 좀 더 빠른 복구와 협업이 가능해질 것으로 기대한다”고 말했다.

이번 조사는 DevOps Institute가 2022년 3월부터 5월까지 전 세계 기업과 기관 소속 SRE 전문가 460명을 대상으로 설문 조사를 진행했다. IT 인프라 및 운영 분야 전문가들이 35%, IT 매니저, 임원급 응답자가 23%를 차지했다.

 

 

저작권자 © 지티티코리아 무단전재 및 재배포 금지