바수 사테나팔리 / Rightdata CEO
바수 사테나팔리 / Rightdata CEO

우리는 스토리지부터 알고리듬 테스트, 놀라운 비즈니스 통찰력에 이르기까지 다양한 데이터 도구 시대에 살고 있다. 30년이 넘는 혁신의 세월을 거쳐 수천 개의 데이터 도구가 개발되었으며, 전 세계 데이터 준비 도구 시장 규모는 2021년부터 연평균 성장률(CAGR) 18.6%로 확대될 전망이다.

이처럼 모든 도구를 사용할 수 있고 데이터의 중요성에 대해 충분히 인식하고 있는데도 불구하고, 여전히 데이터 품질을 달성하기가 어려운 이유는 무엇일까?

먼저, 데이터에 중점을 두고 있더라도 최신 데이터 파이프라인에 균열을 일으키는 몇 가지 요인이 있다. 그것이 무엇이며, 더 높은 데이터 품질을 달성하기 위해 어떻게 해결할 수 있을지 알아보자.

폭발적으로 증가하는 데이터

데이터 파이프라인에 압력을 가하는 주요 요인 중 하나는 데이터의 양과 종류다. 데이터의 양은 최근 몇 년 동안 기하급수적으로 증가했다. 실제로 전 세계 데이터의 90%가 최근 2년 동안 생성된 것으로 추정된다. 2025년까지 전 세계 데이터 생성량은 180제타바이트 이상으로 증가할 것으로 예상된다. 이는 조직이 점점 더 많은 양의 데이터를 수집하고 있음을 나타낸다.

어느 시점에서 조직이 높은 데이터 품질을 달성했다고 생각했더라도 데이터 양이 증가함에 따라 이러한 수준을 유지할 가능성은 거의 없다. 빅 데이터의 출현과 소셜 미디어, IoT 기기, 센서와 같은 데이터 소스의 확산으로 인해 조직들은 다양한 구조와 형식을 가진 거대한 데이터 세트와 씨름하고 있다. 특히 새로운 구조와 형식이 계속 생성됨에 따라 일관된 데이터 품질 표준을 유지하는 것을 어렵게 만들고 있다.

데이터를 분리하는 영구적인 사일로

데이터가 조직 내에서 고립되는 경우가 많다는 것은 잘 알려져 있다. 여러 부서와 팀이 독립적으로 데이터를 수집하고 관리하므로 데이터 품질에 대한 표준화된 관행이 부족하고 단편화된다.

개별 부서에서 점점 더 많은 도구를 계속 추가함에 따라 이러한 도구들을 부서 수준과 조직 수준에서 통합하는 것이 더욱 어려워지고, 이로 인해 탐지와 수정이 어려운 불일치와 오류가 발생한다.

또한 데이터가 사일로화되면 각 도구는 데이터 수집과 변환부터 분석과 보고에 이르기까지 데이터 파이프라인의 각 단계에 걸쳐 새로운 전환 지점을 도입한다. 이로 인해 데이터 품질이 손상될 수 있고 오류가 발생할 수 있으며, 문제의 원인을 파악하는 것은 건초 더미에서 바늘을 찾는 격이 될 수 있다.

진정한 데이터 문화 조성의 어려움

데이터 품질은 단순한 기술적인 문제가 아니다. 이는 문화적, 조직적 과제이기도 하다. 현

재 대부분의 데이터 도구는 일반 사용자가 아닌 데이터를 다루는 데이터 전문가가 사용하도록 설계되었다. 데이터 분석가나 데이터 과학자가 통찰력을 얻거나 보고서를 작성하기 위해 데이터를 조작하는 데 자주 사용한다. 따라서 데이터 정리, 데이터 변환, 데이터 시각화, 데이터 분석을 위해 다른 데이터 도구를 사용하는 코딩 지식이나 사전 경험이 필요할 수 있다.

데이터 전문가만 데이터 도구를 사용하는 경우에는 문제없이 잘 작동했을 수도 있지만 이제는 그렇지 않다. 최신 데이터 품질을 위해서는 IT팀이나 데이터 과학자뿐만 아니라 부서와 팀 간의 협업이 필요하다. 데이터 거버넌스와 책임 의식 문화가 없다면 데이터 품질 문제는 해결되지  않을 것이다.

데이터 품질 기반의 균열 해결법

이러한 문제를 해결하고 데이터 거버넌스, 보안, 더 나은 데이터 품질과 무결성을 달성하기 위한 세 가지 접근 방식이 있다.

① 데이터 자체 개선부터 시작

물론 데이터는 데이터 품질 퍼즐의 한 조각일 뿐이지만 가장 중요한 요소 중 하나다. 데이터 프로파일링, 정리, 검증을 자동화하고 데이터 문제를 더 빠르고 효율적으로 파악하고 수정하는 데 도움이 되는 새로운 데이터 품질 도구와 플랫폼을 탐색해야 한다. 지속적인 데이터 모니터링과 감사 프로세스를 구현하면 오류가 다운스트림으로 이동하여 비즈니스에 더 큰 부정적인 영향을 미치기 전에 이상징후를 감지할 수 있다.

② 사일로 간 데이터 사용 촉진

지속적인 데이터 사일로를 피할 수는 없지만 관리하기 쉽게 만들 수는 있다. 강력한 데이터 카탈로그를 도입하면 여러 소스에서 데이터를 더 쉽게 검색하고 가장 정확한 최신 데이터를 찾을 수 있다. 메타데이터 관리와 데이터 계보를 추적하면 데이터 소스와 종속성을 더 쉽게 찾아낼 수 있어 데이터 품질 평가가 쉬워진다.

서로 다른 도구를 통한 여러 데이터 변환으로 인해 발생하는 문제를 해결하려면 데이터 무결성 검사를 데이터 수명주기에 통합하는 것이 좋다. 도구나 플랫폼 전반의 모든 전환 시점에 무결성 검사를 도입함으로써 데이터 문제나 오류가 다른 도구에 수집되기 전에 포착하여 데이터 품질을 더욱 향상시킬 수 있다.

③ 데이터 중심 문화 구축

데이터 품질의 가치와 이를 위한 개인의 역할에 대해 조직의 모든 구성원을 교육해야 한다. 데이터 품질 표준, 데이터 소유권, 데이터 관리 역할을 포함하는 명확한 데이터 거버넌스 정책을 수립하고 조직의 모든 수준에서 데이터 품질에 대한 책임을 부여해야 한다.

데이터 품질과 보안의 중요성은 물론, 이를 유지 관리하기 위한 모범 사례에 대해 훈련하고 교육해야 할 수도 있다. 서로 다른 팀 간의 협업을 촉진함으로써 데이터 품질이 전반적으로 최우선 순위로 유지되도록 할 수 있다.

진화하는 데이터 환경, 지속적인 데이터 사일로, 진정한 데이터 문화의 부족으로 인해 데이터 품질이 여전히 많은 조직의 과제로 남아 있다. 이를 해결하려면 명확한 거버넌스를 확립하고, 최신 데이터 품질 도구를 사용하며, 협업을 촉진하고, 데이터 품질을 문화적 필수 요소로 우선시하기 위한 공동의 노력이 필요하다. 이를 통해 오늘날의 데이터 파이프라인 시대에 데이터의 무결성을 달성할 수 있을 것이다.

 

필자 바수 사테나팔리(Vasu Satenapalli)는 Rightdata의 CEO이자 공동 창립자로 Rightdata는 현대적인 데이터 통합과 신뢰할 수 있는 데이터 품질을 위한 솔루션을 제공하고 있다. 바수는 20년의 경험을 보유한 IT 리더러 비즈니스 혁신 프로그램을 추진해 포춘 100대 기업에 솔루션을 공급해왔다.

(*이 기고문은 GTT KOREA의 편집 방향과 다를 수 있습니다.)

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지