데이터는 항상 조직의 원동력이었다. 지난 10년 동안 데이터의 가치는 기하급수적으로 증가했다. 모든 다국적 기업과 중소기업 들은 수집된 데이터에서 수집된 통찰력을 기반으로 중요한 비즈니스 결정을 내리기 시작했다. 가장 일반적으로 언급되는 과거 데이터는 의미 있는 통찰력을 수집하기에 충분한 시간에 걸쳐 수집된다.
데이터의 엄청난 증가와 수집된 데이터의 처리 속도가 빨라짐에 따라 조직들은 데이터를 효율적으로 관리해야 하는 과제에 직면해 있다. 2024~2025년에 활용할 수 있는 5가지 최신 데이터 관리 방법을 소개한다.

클라우드 기반 데이터 관리와 도커화
데이터 보호를 위한 클라우드 기반 기술은 기존의 데이터 지속성 및 관리 방법에 비해 많은 이점을 제공할 수 있다. 온프레미스 데이터 관리에 비해 매우 비용 효율적인 온디맨드 확장성, 하드웨어 유지 관리의 불필요, 연중무휴 24시간 고객 지원 가용성, 데이터 활용 비용 등은 클라우드 기반 데이터 저장 및 관리 서비스의 장점으로 꼽힌다. 아마존 웹 서비스(AWS)와 구글 클라우드 플랫폼(GCP)은 가장 인기 있는 클라우드 서비스다.
이 때문에 기업들은 다양한 비즈니스 분야에 클라우드 기술을 빠르게 채택하고 있다.
가트너의 연구에 따르면 클라우드 시장 도입 규모는 1년 동안(2022~2023년) 약 3000억~6000억 달러에 달한 것으로 나타났다. 이는 IaaS(Infrastructure-as-a-Service) 제공이 급속히 증가했기 때문으로 분석됐다.
데이터 관리 면에서는 데이터를 효과적으로 복제할 수 있으면서도 다양한 환경에서 동일한 출력을 생성할 수 있는 것이 중요하다. 여기서 도커화(Dockerization)가 등장한다.
간단히 말해서 쿠버네티스와 도커 같은 기술을 사용하는 컨테이너화는 변경 없이 하드웨어 기반 코드를 배포할 수 있다. 이는 유지 관리에 최소한의 리소스를 필요로 하므로 기업들은 영업 및 마케팅과 같은 비즈니스 프로세스의 다른 측면에서 리소스를 활용할 수 있다.
인공지능과 머신러닝
AI의 출현은 기술 영역에서 날이 갈수록 더욱 널리 퍼지고 있다. 그 중요한 이유 중 하나는 AI를 사용하면 조직이 엄청난 양의 데이터를 처리∙분석하고 유용한 통찰력을 얻을 수 있으며 그 과정에 사람의 개입이 전혀 필요하지 않기 때문이다.
AI가 거의 모든 비즈니스 솔루션에서 활성화됨에 따라 전 세계 AI 시장은 2023년 말까지 약 18120억 달러에 이를 것으로 포브스 어드바이저는 예상했다.
또한 AI와 ML의 결합은 데이터의 특정 패턴을 식별하고 향후 이벤트의 가능성을 예측하는 데 도움이 되는 맞춤형 알고리듬의 이점을 제공한다. 대량의 비정형 데이터를 처리하고 구조화해 기술에 대한 비전문가도 쉽게 이해하고 액세스할 수 있는 의미 있고 관련성 높은 정보를 제공할 수 있다.
합성 데이터 생성
데이터 관리 중에 나타나는 가장 흥미로운 주제 중 하나는 합성 데이터 생성이다.
합성 데이터 생성은 실제 데이터의 모든 측면과 특성과 유사하지만 실제 데이터(생산 데이터)와 영향이나 상관 관계가 없는 합성 데이터를 생성하는 것을 목표로 한다. 이를 통해 데이터가 제대로 보호되는지 확인하고 데이터 모델을 훈련해 데이터 분석을 수행하거나 소프트웨어 테스트를 위한 가짜 데이터를 생성할 수 있다.
개발에서는 프로덕션 데이터의 기본 패턴과 유사한 합성 데이터를 사용하므로 코드를 프로덕션 환경에 통합하는 것이 더 쉽다. 미래 지향적인 조직들은 많은 비즈니스 사용 사례를 최적으로 처리할 수 있는 능력 때문에 이미 합성 데이터 생성 방법을 채택하기 시작했니다.
대규모 엔터프라이즈급 데이터 관리 플랫폼은 생성AI, 규칙 엔진, 개체 복제 및 데이터 마스킹의 잠재력을 결합해 정확한 합성 생성 데이터를 제공하는 본격적인 합성 데이터 관리 솔루션을 공급한다.

데이터 개인정보 보호 및 보안
생성되고 처리되는 데이터의 양은 기하급수적으로 증가하기 때문에 처리된 데이터를 최대한 주의 깊게 처리하는 것이 매우 중요하다. 예를 들어, 병원에서 환자의 병력, 가족의 병력에 대한 정보를 수집하여 모든 환자에 대해 보관하는 경우 이를 일반적으로 PII(개인 식별 정보)라고 한다. 이러한 정보가 인터넷을 통해 접근 가능해지면 개인에게 잠재적인 피해를 줄 수 있으며, 조직은 개인에게 발생한 피해에 대해 필요한 책임을 져야 한다. 이 때문에 기업들은 데이터 보호를 우선시하고 데이터 보안에 막대한 투자를 하고 있다.
탈레스의 연구원들은 전 세계 소비자의 약 33%가 지난 1년 동안 어떤 형태로든 데이터 침해를 당했다고 밝혔다. 서버 측 암호화 서비스는 엔터프라이즈급 데이터와 백업 및 복구 옵션을 저장한다. 또한 이러한 솔루션은 퍼블릭 클라우드 서비스 전반에서 데이터를 쉽게 마이그레이션할 수 있는 기능도 제공한다.
데이터 분산화
최근 몇 년 동안 기술의 발전과 데이터 영역의 변화는 그 어느 때보다 빨라졌다. 이로 인해 최신 기술과 즉흥적인 방법으로 업데이트되는 신속한 채택 기능이 필요하다. 조직들은 이를 수행하는 가장 좋은 방법이 데이터를 효과적으로 관리하기 위해 분산형 접근 방식을 따르는 것임을 알아냈다.
분산형 접근 방식에서는 지정된 팀이 데이터를 유지 관리한다. 분산형 접근 방식의 가장 중요한 측면은 사용자가 필요할 때마다 데이터에 액세스하고 처리하는 데이터의 특성을 이해할 수 있도록 충분한 권한을 제공하며, 정의된 방법(주로 메타데이터 사용)을 통해 모든 데이터 소스와 데이터 관리 구성요소를 연결하는 데이터 관리 아키텍처를 구현하는 것이다. 가트너의 최근 연구에 따르면, 2025년까지 약 75%의 조직이 데이터 분산화를 채택하게 될 것이다.
대규모 데이터 성장 시대를 지나면서 특별한 하나의 데이터 관리법이 데이터 관리와 관련된 모든 문제를 해결할 것이라고 단정하기는 어렵다. 위에서 언급한 방법에도 나름의 단점이 있다. 하지만 이를 종합적으로 활용하면 조직이 직면한 대부분의 문제를 해결할 수 있다. 미래에는 첨단 기술과 데이터 관리의 개선을 통해 한 가지 방법으로 데이터 관리와 관련된 문제의 대부분 또는 전부를 해결할 수 있기를 기대한다.
* 필자 야시 메타(Yash Mehta)는 엑스퍼사이트(Expersight)의 최고 데이터 책임자(Chief Data Officer)로 시장 인텔리전스, 리서치 및 자문 플랫폼을 이끌고 있다. 또한 그는 인텔렉투스(Intellectus) SaaS 플랫폼의 공동 창립자이기도 하다. 야시는 신흥 기술 시장의 기업가이자 작가이며 초기 단계 투자자다. 그는 2015년부터 시맨틱 AI, IoT, 블록체인, 데이터 보안 및 데이터 패브릭과 같은 최첨단 기술에 대한 자신의 의견을 적극적으로 공유해 왔다. 야시의 작업은 2016년부터 2018년 사이에 여러 포춘 500대 기업이 선정한 ‘연결된 기술 산업에서 가장 영향력 있는 연구 중 하나’로 선정되기도 했다.
(*이 칼럼은 GTT KOREA의 편집 방향과 다를 수 있습니다.)
관련기사
- [기고] AI 윤리 문제 해결할 'AI 거버넌스' 7대 전략
- [기고] AI로 진화하는 스토리지 7대 혁신
- “생성AI가 직장 분열시키고 민감 정보도 노출”...구체적 가이드라인과 정책 절실
- AI 기업으로 진화하는 데이터 혁신 전략은?
- [기고] 전략적 의사결정의 다크호스 ‘다크 데이터’
- [기고] 기업 데이터 관리 시스템을 반드시 구현해야 할 이유 4가지
- 하이브리드 데이터 환경에 최적화된 데이터 인텔리전스 플랫폼
- [기고] 데이터 모델링의 그랜드마스터 전략
- [기고] 2024년, 서비스형 데이터 거버넌스 DGaaS로 간다
- 데이터 활용능력 높이는 “합성 데이터 생성” 시장, AI·ML과 동반 비상
- AI 시대, 기업 데이터 경쟁력을 높이는 3대 전략
- 스냅태그, 랩가드 홈페이지 론칭
- 이더넷 기반 AI 워크로드 테스트 솔루션 ‘AI 요구사항과 복잡성 해결’
- 인텔 코어 울트라 탑재 vPro 플랫폼, AI PC 시장 확대
- K-스타트업 글로벌 성장 지원 ‘창구 프로그램 6기’ 참여 개발사 모집
- 중소기업이 AI 활용 효율 높이려면
- [기고] CMO와 CFO 간의 데이터 격차를 해소하는 방법
- GfK 코리아, 2024 데이터바우처 지원사업 수요기업 모집
- 알테라, 독립 FPGA 기업으로 새출발
- 소프트웨어 취약점 208% 증가
- 솔트룩스-폴라리스오피스, 생성AI 사업 MOU 체결
- 대규모 데이터 세트의 극좌표 다이어그램 데이터 분석 SW
- 구글 클라우드, 통합 데이터 클라우드 포트폴리오에 AI 지원
- 랜섬웨어 방어하는 비용 효율적인 백업 솔루션
- [기고] 흥미진진한 생성AI의 역사
- 멀티클라우드 환경의 고도화된 보안 위협 ‘XDR’ 서비스로 대응
- 주변에서 에너지 얻는 ‘엠비언트 IoT’
- [기고] 대규모 클라우드 마이그레이션의 5대 과제
- 생성AI 구현 경험 많은 기업일수록 ‘IT 역량에 대한 신뢰 낮다’
- 생성AI 활용한 '지식 관리 시스템'...정확성·효율성 향상
- [Success Story] 푸마, 구글 클라우드 솔루션으로 온라인 쇼핑 경험 혁신
- [기고] IoT 관리 전략 ‘메타데이터 거버넌스’
- 데이터 기반 기업 수익성·경영관리 효율 높이는 기업성과관리 솔루션 ‘CCH 타게틱'
- [기고] 성공적인 데이터 분석 센터 구축 12단계
- 인텔, 데스크톱 프로세서 ‘14세대 인텔 코어 i9-14900KS’ 출시
- 컨소시엄 블록체인 기반 경량 데이터 공유 시스템
- PaaS·AI·ML 탑재된 컨테이너 솔루션 '랜처 프라임 3.0'
- 스마트해지는 커넥티드 환경, ‘만물인터넷 IoE’ 시장 만개
- 랜섬웨어 예방 핵심 "기업 규정 준수"
- 영업에 필요한 고객 맞춤형 콘텐츠 ‘자동 생성’ 솔루션
- 단일 계정에서 멀티 체인 거래 지원하는 ‘체인 서명’
- [기고] 데이터 활용 가치 높이는 ‘프로세스 마이닝’
- 데이터 관리∙웹 3.0 증가에 따라 ‘시맨틱 웹 솔루션’ 채택 급증
- 진화하는 AI 소프트웨어 테스터 ‘코테스터’
- 인텔, 11억 5천만 뉴런 지원하는 ‘뉴로모픽 시스템’ 공개
- 데이터센터 "자동화와 생성AI 도입" IaaS 활용 극대화 지름길
- 공통 데이터 언어 구축 기반 ‘시맨틱 레이어’
- 데이터 패브릭 아키텍처로 현대적인 데이터 플랫폼 구축하기
- 데이터 통합과 데이터 패브릭 구현의 7대 핵심
- [Success Story] 대규모 온라인 플랫폼 ‘피크 앤 페이’ 오픈텍스트 AI로 SW 테스트 95% 자동화
- AI 기반 지식 모델링 생성 도구
