[기고] 데이터 가치 높이는 '데이터 관리' 5대 비법

데이터는 항상 조직의 원동력이었다. 지난 10년 동안 데이터의 가치는 기하급수적으로 증가했다. 모든 다국적 기업과 중소기업 들은 수집된 데이터에서 수집된 통찰력을 기반으로 중요한 비즈니스 결정을 내리기 시작했다. 가장 일반적으로 언급되는 과거 데이터는 의미 있는 통찰력을 수집하기에 충분한 시간에 걸쳐 수집된다.

데이터의 엄청난 증가와 수집된 데이터의 처리 속도가 빨라짐에 따라 조직들은 데이터를 효율적으로 관리해야 하는 과제에 직면해 있다. 2024~2025년에 활용할 수 있는 5가지 최신 데이터 관리 방법을 소개한다.

클라우드 기반 데이터 관리와 도커화

데이터 보호를 위한 클라우드 기반 기술은 기존의 데이터 지속성 및 관리 방법에 비해 많은 이점을 제공할 수 있다. 온프레미스 데이터 관리에 비해 매우 비용 효율적인 온디맨드 확장성, 하드웨어 유지 관리의 불필요, 연중무휴 24시간 고객 지원 가용성, 데이터 활용 비용 등은 클라우드 기반 데이터 저장 및 관리 서비스의 장점으로 꼽힌다. 아마존 웹 서비스(AWS)와 구글 클라우드 플랫폼(GCP)은 가장 인기 있는 클라우드 서비스다.

이 때문에 기업들은 다양한 비즈니스 분야에 클라우드 기술을 빠르게 채택하고 있다.

가트너의 연구에 따르면 클라우드 시장 도입 규모는 1년 동안(2022~2023년) 약 3000억~6000억 달러에 달한 것으로 나타났다. 이는 IaaS(Infrastructure-as-a-Service) 제공이 급속히 증가했기 때문으로 분석됐다.

데이터 관리 면에서는 데이터를 효과적으로 복제할 수 있으면서도 다양한 환경에서 동일한 출력을 생성할 수 있는 것이 중요하다. 여기서 도커화(Dockerization)가 등장한다.

간단히 말해서 쿠버네티스와 도커 같은 기술을 사용하는 컨테이너화는 변경 없이 하드웨어 기반 코드를 배포할 수 있다. 이는 유지 관리에 최소한의 리소스를 필요로 하므로 기업들은 영업 및 마케팅과 같은 비즈니스 프로세스의 다른 측면에서 리소스를 활용할 수 있다.

인공지능과 머신러닝

AI의 출현은 기술 영역에서 날이 갈수록 더욱 널리 퍼지고 있다. 그 중요한 이유 중 하나는 AI를 사용하면 조직이 엄청난 양의 데이터를 처리∙분석하고 유용한 통찰력을 얻을 수 있으며 그 과정에 사람의 개입이 전혀 필요하지 않기 때문이다.

AI가 거의 모든 비즈니스 솔루션에서 활성화됨에 따라 전 세계 AI 시장은 2023년 말까지 약 18120억 달러에 이를 것으로 포브스 어드바이저는 예상했다.

또한 AI와 ML의 결합은 데이터의 특정 패턴을 식별하고 향후 이벤트의 가능성을 예측하는 데 도움이 되는 맞춤형 알고리듬의 이점을 제공한다. 대량의 비정형 데이터를 처리하고 구조화해 기술에 대한 비전문가도 쉽게 이해하고 액세스할 수 있는 의미 있고 관련성 높은 정보를 제공할 수 있다.

합성 데이터 생성

데이터 관리 중에 나타나는 가장 흥미로운 주제 중 하나는 합성 데이터 생성이다.

합성 데이터 생성은 실제 데이터의 모든 측면과 특성과 유사하지만 실제 데이터(생산 데이터)와 영향이나 상관 관계가 없는 합성 데이터를 생성하는 것을 목표로 한다. 이를 통해 데이터가 제대로 보호되는지 확인하고 데이터 모델을 훈련해 데이터 분석을 수행하거나 소프트웨어 테스트를 위한 가짜 데이터를 생성할 수 있다.

개발에서는 프로덕션 데이터의 기본 패턴과 유사한 합성 데이터를 사용하므로 코드를 프로덕션 환경에 통합하는 것이 더 쉽다. 미래 지향적인 조직들은 많은 비즈니스 사용 사례를 최적으로 처리할 수 있는 능력 때문에 이미 합성 데이터 생성 방법을 채택하기 시작했니다.

대규모 엔터프라이즈급 데이터 관리 플랫폼은 생성AI, 규칙 엔진, 개체 복제 및 데이터 마스킹의 잠재력을 결합해 정확한 합성 생성 데이터를 제공하는 본격적인 합성 데이터 관리 솔루션을 공급한다.

데이터 개인정보 보호 및 보안

생성되고 처리되는 데이터의 양은 기하급수적으로 증가하기 때문에 처리된 데이터를 최대한 주의 깊게 처리하는 것이 매우 중요하다. 예를 들어, 병원에서 환자의 병력, 가족의 병력에 대한 정보를 수집하여 모든 환자에 대해 보관하는 경우 이를 일반적으로 PII(개인 식별 정보)라고 한다. 이러한 정보가 인터넷을 통해 접근 가능해지면 개인에게 잠재적인 피해를 줄 수 있으며, 조직은 개인에게 발생한 피해에 대해 필요한 책임을 져야 한다. 이 때문에 기업들은 데이터 보호를 우선시하고 데이터 보안에 막대한 투자를 하고 있다.

탈레스의 연구원들은 전 세계 소비자의 약 33%가 지난 1년 동안 어떤 형태로든 데이터 침해를 당했다고 밝혔다. 서버 측 암호화 서비스는 엔터프라이즈급 데이터와 백업 및 복구 옵션을 저장한다. 또한 이러한 솔루션은 퍼블릭 클라우드 서비스 전반에서 데이터를 쉽게 마이그레이션할 수 있는 기능도 제공한다.

데이터 분산화

최근 몇 년 동안 기술의 발전과 데이터 영역의 변화는 그 어느 때보다 빨라졌다. 이로 인해 최신 기술과 즉흥적인 방법으로 업데이트되는 신속한 채택 기능이 필요하다. 조직들은 이를 수행하는 가장 좋은 방법이 데이터를 효과적으로 관리하기 위해 분산형 접근 방식을 따르는 것임을 알아냈다.

분산형 접근 방식에서는 지정된 팀이 데이터를 유지 관리한다. 분산형 접근 방식의 가장 중요한 측면은 사용자가 필요할 때마다 데이터에 액세스하고 처리하는 데이터의 특성을 이해할 수 있도록 충분한 권한을 제공하며, 정의된 방법(주로 메타데이터 사용)을 통해 모든 데이터 소스와 데이터 관리 구성요소를 연결하는 데이터 관리 아키텍처를 구현하는 것이다. 가트너의 최근 연구에 따르면, 2025년까지 약 75%의 조직이 데이터 분산화를 채택하게 될 것이다.

대규모 데이터 성장 시대를 지나면서 특별한 하나의 데이터 관리법이 데이터 관리와 관련된 모든 문제를 해결할 것이라고 단정하기는 어렵다. 위에서 언급한 방법에도 나름의 단점이 있다. 하지만 이를 종합적으로 활용하면 조직이 직면한 대부분의 문제를 해결할 수 있다. 미래에는 첨단 기술과 데이터 관리의 개선을 통해 한 가지 방법으로 데이터 관리와 관련된 문제의 대부분 또는 전부를 해결할 수 있기를 기대한다.

* 필자 야시 메타(Yash Mehta)는 엑스퍼사이트(Expersight)의 최고 데이터 책임자(Chief Data Officer)로 시장 인텔리전스, 리서치 및 자문 플랫폼을 이끌고 있다. 또한 그는 인텔렉투스(Intellectus) SaaS 플랫폼의 공동 창립자이기도 하다. 야시는 신흥 기술 시장의 기업가이자 작가이며 초기 단계 투자자다. 그는 2015년부터 시맨틱 AI, IoT, 블록체인, 데이터 보안 및 데이터 패브릭과 같은 최첨단 기술에 대한 자신의 의견을 적극적으로 공유해 왔다. 야시의 작업은 2016년부터 2018년 사이에 여러 포춘 500대 기업이 선정한 ‘연결된 기술 산업에서 가장 영향력 있는 연구 중 하나’로 선정되기도 했다.

(*이 칼럼은 GTT KOREA의 편집 방향과 다를 수 있습니다.)

[알림] GTT KOREA와 월터스클루어는 오는 3월 5일(화) 오후 2시부터 3시까지 “기업의 수익성을 증대하는 ‘전사 기업성과관리(CPM)’ 플랫폼 활용 전략”을 주제로 무료 온라인 세미나를 개최한다. 급변하는 글로벌 비즈니스 환경에서 기업 고객들에게 AI 활용 고급 분석 기능이 적용돼 재무계획을 넘어 판매, 공급망, HR 등 운영 조직까지 확대해 최적의 전사적 경영계획 및 예측 정보를 제공하는 ‘확장경영계획 및 분석’도 가능한 기업성과관리 플랫폼 ‘CCH 타게틱’을 통한 기업의 수익 극대화 방안을 단계별, 사례별로 알아본다.

야시 메타(Yash Mehta) / 엑스퍼사이트(Expersight) 최고 데이터 책임자

기자의 다른기사

상단영역

본문영역

[기고] 데이터 가치 높이는 '데이터 관리' 5대 비법

클라우드 기반 관리와 도커화, AI/ML, 합성 데이터, 보안, 데이터 분산화 필요

관련기사

본문영역

키워드

관련기사