기업들이 데이터에 기반해 의사 결정을 하게 됨에 따라 데이터 옵저버빌리티(Data Observability) 도구가 점점 더 주목받고 있다. 데이터 옵저버빌리티 도구는 비즈니스 전반에 걸쳐 데이터의 신뢰성, 일관성, 정확성을 지원하는 데 사용된다. 신뢰할 수 있는 데이터를 개발하고 비즈니스 목표를 방해하는 데이터 흐름 문제를 진단하는 데에 이 데이터 옵저버빌리티 도구가 필요하다. ‍이는 일반적으로 비즈니스의 데이터 시스템에 대한 엔드 투 엔드 가시성을 제공하고 사전에 오류를 찾아낸다.

데이터 옵저버빌리티는 데이터의 문제를 찾아 수정하는 기능을 제공한다. 이 도구는 데이터의 정확성, 유용성, 건강성을 모니터링하는 데 사용되며, 데이터 계보와 데이터 정리 등의 같은 프로세스 옵저버빌리티도 포함된다.

데이터 옵저버빌리티 도구를 사용하면 직원들이 컴퓨터를 정지하거나 종료하지 않고 신뢰할 수 있는 신뢰할 수 있는 데이터로 작업할 수 있다. 데이터 흐름의 문제를 파악하고 평가하기 위한 자동화된 경고와 진단을 제공해 데이터 품질 문제가 영향을 미치기 전에 이를 파악하고 해결하여 가동 중지 시간과 통신 오류를 줄일 수 있다.

데이터 옵저버빌리티 vs. 데이터 모니터링

데이터 모니터링은 문제가 발생한 후 이 문제를 감지하고 담당자에게 알리는 솔루션이다.

데이터 모니터링이 상대적으로 수동적인 프로세스인 반면, 데이터 옵저버빌리티는 문제가 발생하기 전에 또는 실시간으로 발생하는 문제를 처리하려고 시도하는 사전 프로세스라 할 수 있다. 데이터 옵저버빌리티로 문제를 선제적으로 해결할 수 없더라도 문제의 이유를 이해하고 솔루션을 개발하는 데 도움이 된다. 데이터 옵저버빌리티는 또한 데이터 흐름에만 국한되지 않고 데이터 자산 전체에 대한 개요를 제공한다.

데이터 모니터링도 여전히 유용한 프로세스다. 데이터 옵저빌리티의 한 분야로 마이크로 서비스 기반 시스템을 구축하고 운영하는 데에 필요하다.

데이터 옵저빌리티 도구의 3요소

데이터 옵저빌리티는 추적, 지표, 로그라는 세 가지 요소를 사용하여 데이터를 유지하고 관리하는 프로세스를 지원한다. 이러한 요소들을 결합해 데이터가 어떻게 사용되고 변경되는지에 대한 전체적인 보기를 제공할 수 있다. 이는 웹 사이트, 클라우드, 서버, 마이크로 서비스 환경에 모두 적용될 수 있다.

데이터 옵저버빌리티 도구는 일반적으로 머신 러닝 알고리듬을 사용하여 데이터 전달의 정확성과 속도를 관찰한다.

① 추적

새로운 개념의 추적은 분산 이벤트 체인과 그 사이에서 발생하는 상황을 기록한다. 분산 추적은 사용자 여정에 대한 기록을 생성한 다음 ‘옵저비빌리티’를 집계한다. 추적은 사용자 요청, 엔드 투 엔드 처리된 요청과 백엔드 시스템을 보여주고, 대시보드에 시각적으로 표시될 수 있다.

집킨(Zipkin)이라는 오픈 소스 추적 도구를 사용할 수 있다.

분산 추적은 컨테이너화된 여러 마이크로 서비스를 통해 데이터를 처리할 때 특히 유용하다. 추적은 자동으로 생성되고 표준화된다. 각 단계가 사용자에게 소요되는 시간을 보여주기 때문에 기능적이며 사용하기 쉽다.

추적은 병목 현상을 훨씬 더 빠르게 수정할 수 있고, 이상 현상이 발생하거나 사이트가 완전히 다운된 경우 자동으로 알림을 받을 수 있다. 또한 조직의 분산 마이크로 서비스에 대한 개요를 제공한다는 이점이 있다.

② 지표

옵저버빌리티 지표는 시스템 성능에 대한 통찰력을 제공하는 다양한 KPI(핵심 성과 지표)를 다루는 소프트웨어다. 예를 들어 웹 사이트 옵저버빌리티 측정 항목에는 응답 시간, 최대 로드, 처리된 요청이 포함된다. 서버 옵저버빌리티 측정 항목에는 메모리 사용량, 대기 시간, 오류율, CPU 용량이 포함된다.

프로메테우스(Prometheus)라는 오픈 소스 도구는 지표를 사용하도록 특별히 설계되었다.

KPI는 시스템의 상태와 성능에 대한 통찰력을 제공할 수도 있다. 시스템 성능을 측정해 개선을 위한 실행 가능한 통찰력을 개발할 수 있다.

또한 지표는 경고를 하므로 담당자는 실시간으로 시스템을 모니터링할 수 있다. 경고는 시스템 내 이벤트에서 비정상적인 활동을 모니터링하는 데 사용될 수 있다.

③ 로그

로그와 로그 파일 소프트웨어는 문제, 오류, 비즈니스의 현재 운영에 대한 정보 등 컴퓨터 시스템 내에서 발생하는 이벤트를 추적한다. 이러한 이벤트는 운영체제나 기타 소프트웨어에서 발생할 수 있다.

로그 파일은 컴퓨터에서 생성되며 활동, 사용 패턴, 작업에 대한 정보를 담고 있다. 로그는 조직의 가장 유용한 기록 데이터 기록 중 일부를 제공한다. 타임스탬프(매우 유용함)와 메타데이터를 일반 텍스트와 결합하는 ‘구조화된’ 로그를 사용하여 쿼리와 구성을 더 쉽게 만든다. 로그는 데이터 활동에 대한 ‘무엇을, 언제, 누가, 어떻게’ 했는지에 대한 답변을 제공할 수 있다.

그라파나 로키(Grafana Loki)라는 로그 집계 도구를 사용하면 조직의 모든 애플리케이션과 인프라에서 로그를 저장하고 쿼리할 수 있다.

추적 vs. 로그

추적은 자동으로 생성되며 데이터 시각화가 가능하므로 문제를 더 쉽게 관찰하고 수정할 수 있다. 이벤트에 대한 컨텍스트를 제공하는 것은 추적이 로그보다 더 낫지만, 로그는 추적이 제공하지 않는 문제에 대한 코드 수준의 가시성을 제공한다는 특징이 있다.

데이터 파이프라인과 옵저버빌리티

데이터 파이프라인 옵저버빌리티는 데이터 이상이나 문제에 대한 파이프라인의 내부 프로세스를 관찰하는 것을 의미한다. 이는 파이프라인에서 데이터가 어떻게 이동하고 변환되는지에 대한 이해를 제공하며 로깅, 지표, 추적 데이터 파이프라인과 함께 사용할 수 있다.

데이터 파이프라인에는 데이터를 수집, 변환, 저장하는 일련의 단계가 포함되는 경우가 많다. 여기에 데이터 변환, 데이터 정리, 데이터 다운로드 등의 프로세스가 포함될 수 있으며, 각 단계는 서로 다른 프로세스를 통해 데이터의 품질과 신뢰성에 영향을 미칠 가능성이 있다.

데이터 파이프라인 옵저버빌리티에 사용되는 소프트웨어는 데이터 파이프라인 기능의 각 단계에 대한 정보를 제공한다. 또한 이 소프트웨어는 파이프라인의 내부 작동에 대한 정보와 특정 유형의 출력과의 상관 관계를 제공한다. 이 정보를 통해 데이터 기술자는 무엇이 잘못되었는지 이해하고 수정할 수 있다.

데이터 파이프라인은 다양한 소스에서 데이터를 수집한다. 데이터를 변환하고 강화하여 스토리지, 비즈니스 운영과 분석에 사용할 수 있다. 여러 처리 단계를 관리하려면 지속적인 옵저버빌리티가 필요하다. 문제를 빠르고 효율적으로 해결하려면 다운스트림 애플리케이션에 영향을 미치기 전에 데이터 문제를 파악하는 것이 필요하다.

데이터밴드.ai(Databand.ai)는 데이터 엔지니어를 위해 구축된 통합 데이터 옵저버빌리티 플랫폼이다. 파이프라인의 메타데이터를 중앙 집중화하여 엔드 투 엔드 옵저버빌리티를 제공하고 문제의 원인을 신속하게 파악할 수 있다.

로그스태시(Logstash)는 자체 관찰 도구와 함께 제공되는 무료 개방형 데이터 처리 파이프라인이다. 쉽게 관찰할 수 있는 파이프라인 뷰어 기능을 제공한다.

데이터 옵저버빌리티 플랫폼을 선택하는 방법

조직에 가장 적합한 데이터 옵저버빌리 플랫폼을 선택하는 것은 기존 데이터 아키텍처를 검토하고 시스템과 쉽게 통합되는 플랫폼을 찾는 것에서부터 시작된다.

가장 이상적인 것은 미사용 데이터와 시스템 전체의 흐름을 모니터링하는 데이터 옵저버빌리티 플랫폼이다. 기능적 데이터 옵저버빌리티 플랫폼에는 대시보드, 데이터를 추적 기능, 데이터 로그, 옵저버빌리티 지표 등이 포함된다.

세 가지 기본 원칙을 지원하고 대시보드와 함께 제공되는 데이터 옵저버빌리티 플랫폼 중 몇 가지를 소개한다.

① 데이터도그(Datadog)

조직의 인프라와 클라우드 서비스에 대한 성능 지표, 이벤트 모니터링을 제공할 수 있는 데이터 관찰 플랫폼. 서버, 데이터베이스, 도구를 통해 데이터의 흐름을 관찰할 수 있다.

② 센트리(Sentry)

병목 현상과 오류를 파악하는 데 도움이 되는 오픈 소스 데이터 옵저버빌리티 플랫폼. 센트리의 분산 추적 기능을 통해 플랫폼은 서로 다른 소스에서 들어오는 데이터를 정리할 수도 있다. 이 프로세스는 데이터가 통과하는 각 체크포인트에서 데이터에 대한 매우 유용한 개요를 제공한다.

③ 로짓.io(Logit.io)

분산 추적 솔루션을 통해 주요 이벤트를 추적하고 모든 애플리케이션에서 리소스가 어떻게 사용되고 있는지 보여준다. 이 플랫폼을 통해 기술 담당자는 비즈니스의 지표, 이벤트, 로그, 추적에 액세스할 수 있다. 지표를 사용하여 대시보드, 보고서, 경고를 생성할 수 있다. 이 플랫폼은 인프라 모니터링, 로그 관리, 심층 지표 분석에도 사용할 수 있다.

④그라파나 클라우드(Grafana Cloud)

지표, 로그, 추적을 위해 설계되었으며 최상의 대시보드 플랫폼을 지원하는 것으로 알려진 데이터 옵저버빌리티 플랫폼으로 구성 가능한 개방형 플랫폼이다. 지표, 로그, 추적을 호스팅할 수 있는 유연성을 제공하고 공급 업체 종속을 방지하기 위한 믹스 앤드 매치 도구를 지원한다.

⑤ 뉴 렐릭(New Relic) 

‘뉴 렐릭 원(New Relic One)’이라고도 불리며 오류를 신속하게 감지, 진단, 제거할 수 있다. 엔드 투 엔드 옵저버빌리티 기능을 지원하며 440개 이상의 다른 기술과 통합된다. 사용자 정의 가능한 대시보드가 제공되며 조직의 모든 앱, 서비스, 로그에서 자동으로 이상 현상이나 성능 문제를 찾아낸다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지