경직된 데이터 웨어하우스는 끊임없이 진화하는 비즈니스 요구 사항을 충족할 수 없다. 전통적인 데이터 스토리지 전략은 다양한 데이터 소스의 무게로 인해 무너지고 있으며 이로 인해 분석이 제한되고 결정이 좌절되고 있다. 이를 극복하고 방대한 데이터의 바다에서 무한한 잠재력을 발휘할 수 있는 방법은 ‘하이브리드 아키텍처’다.

이 혁신적인 접근 방식은 데이터 레이크의 유연성과 데이터 볼트(Data Vault) 모델의 분석 능력을 결합해 사일로화된 데이터 세계를 파괴한다. 이를 통해 센서 판독값부터 소셜 미디어 언급까지 모든 구조적 및 비구조적 데이터를 손쉽게 캡처할 수 있고, 데이터를 분석해 숨겨진 통찰력을 발견하며 의사결정을 한 단계 더 발전시킬 수 있는 엄선된 비즈니스 중심 코어를 실현할 수 있다.

이르판 고와니 / 아스테라 소프트웨어 수석 프로젝트 관리자
이르판 고와니 / 아스테라 소프트웨어 수석 프로젝트 관리자

하이브리드 아키텍처의 구성 요소

① 데이터 레이크

광대하고 끊임없이 확장되는 데이터 저장소인 그랜드 캐년은 데이터 레이크, 정형(데이터베이스, 로그) 및 비정형(소셜 미디어, 센서 판독값) 등 기업의 모든 영역에서 필터링되지 않은 원시 데이터를 위한 랜딩 존이다. 이를 분석 엔진에 연료를 공급하는 원자재라고 생각하면 된다.

장점은 대용량 데이터에 대한 확장성, 다양한 데이터 유형에 대한 유연성, 원시 데이터 저장을 위한 비용 효율성이고, 과제는 품질과 계통을 보장하는 데이터 거버넌스, 새로운 데이터 유형을 관리하기 위한 스키마 진화, 효율적인 탐색을 위한 쿼리 최적화를 보장하는 것이다.

② 데이터 볼트

데이터 레이크 내에 목적에 따라 세심하게 제작된 데이터 볼트가 있다. 이것이 분석 능력의 핵심이다. 여기에는 특정 소스 시스템과 관계없이 ‘비즈니스 키’로 대표되는 핵심 비즈니스 엔터티(고객, 제품, 트랜잭션)가 포함된다. 레이크의 데이터는 볼트에 들어가기 전에 정리∙변환∙강화되어 분석을 위한 구성 요소가 된다.

장점은 이벤트 기반 데이터 캡처를 통한 기록 분석, 정규화된 데이터 구조를 통한 효율적인 쿼리, 민첩성 및 모듈식 설계를 통한 적응성이고, 과제는 통합 중에 데이터 무결성을 유지하고, 스키마 안정성과 진화하는 비즈니스 요구 사항의 균형을 맞추며, 다양한 사용자를 위한 데이터 접근성을 보장하는 것이다.

③ 링크

레이크와 볼트 전체의 데이터를 연결하는 링크는 관계와 맥락을 드러낸다. 링크를 통해 고객 주문이 소셜 미디어와 어떻게 연결되는지, 센서 판독값이 제품 성능과 어떻게 연관되는지 살펴볼 수 있다.

링크의 장점은 도메인 간 분석을 통해 더 깊은 통찰력을 얻고, 레이크의 맥락으로 볼트를 풍부하게 하며, 데이터 관계를 유연하게 탐색할 수 있다. 과제는 효율적인 쿼리를 위한 직관적인 링크 구조 설계, 링크와 해당 데이터 요소 간의 일관성 유지, 연결된 데이터 소스 전체에 대한 데이터 보안과 액세스 제어를 보장해야 한다는 것이다.

④ 도구와 기술

ETL/ELT 파이프라인, 데이터 품질 도구, 데이터 레이크 관리 플랫폼, 데이터 볼트 모델링 기법과 같은 도구와 기술은 하이브리드 아키텍처를 구축∙유지 관리∙활용하는 데 매우 중요하다.

장점은 효율적인 데이터 흐름을 위한 자동화, 데이터 품질 및 보안을 위한 거버넌스, 성능 및 확장성 최적화를 위한 모범 사례이고, 과제는 특정 요구 사항에 적합한 도구를 선택하고, 발전하는 기술에 대한 최신 정보를 유지∙교육하며, 데이터 관리 팀의 역량을 강화해야 한다는 것이다.

하이브리드 아키텍처의 장점

데이터 볼트 2.0 의 하이브리드 아키텍처는 단순히 데이터를 호수에 던지고 그 위에 깔끔한 집을 짓는 것 이상으로 확장된다.

1) 유연성 : 데이터 레이크는 엄격한 스키마를 강요하지 않고도 센서 판독값, 소셜 미디어 버즈, 기존 거래 로그 등 모든 데이터 유형을 받아들인다. 이를 통해 예상치 못한 분석의 가능성을 열어 숨겨진 상관관계와 이전에는 상상할 수 없었던 통찰력을 발견할 수 있다.

2) 확장성 : 하이브리드 아키텍처는 쉽게 확장된다. 데이터 레이크의 광대함은 기존 시스템을 질식시키는 데이터 볼륨을 수용하므로 비즈니스 활동의 모든 측면을 포착할 수 있다.

3) 비용 효율성 : 예산 제약으로 인해 데이터 이니셔티브가 어려움을 겪는 경우가 많다. 하이브리드 아키텍처는 신선한 공기를 제공한다. 원시 데이터는 비용 효율적인 데이터 레이크에 상주하며, 데이터 볼트의 선별된 코어는 자주 액세스하는 분석을 위한 스토리지 요구를 최소화한다. 이러한 지능적인 리소스 할당을 통해 데이터 ROI를 극대화할 수 있다.

4) 민첩성 : 데이터 정글에서 적응 및 정복 하이브리드 아키텍처는 민첩성을 제공한다. 새로운 데이터 소스를 레이크에 쉽게 통합할 수 있으며 데이터 볼트 구조를 최소한으로 변경해야 한다. 이는 더 빠른 분석, 더 빠른 의사결정, 경쟁사를 압도할 수 있는 능력이다.[오전1]

5) 더 깊은 통찰력 : 전통적인 데이터 웨어하우스는 종종 표면 수준의 보기를 제공한다. 하이브리드 아키텍처는 숨겨진 보물을 찾아낸다. 레이크에 있는 정형 데이터와 비정형 데이터 사이의 점을 연결하고 신중하게 선별된 데이터 뷰를 통해 비즈니스에 대한 360도 뷰를 얻을 수 있다.

하이브리드 아키텍처의 과제와 고려 사항

① 데이터 거버넌스: 레이크와 볼트 간의 데이터 흐름을 관리하고 불일치를 방지하며 데이터 자산에 대한 신뢰를 유지하려면 명확한 정책과 절차가 중요하다. 데이터 사전, 감사 추적, 액세스 제어 메커니즘 등은 데이터를 그대로 유지하기 위한 필수 도구다.

② 스키마 진화 : 핵심 비즈니스 주체는 일관성을 유지해야 하지만 새로운 데이터 소스를 수용하려면 데이터 볼트 스키마를 신중하게 조정해야 할 수도 있다. 민첩성과 데이터 무결성 사이의 적절한 균형을 유지하려면 데이터 설계자와 비즈니스 이해관계자 간의 사려 깊은 계획과 협업이 필요하다.

③ 쿼리 최적화 : 데이터 레이크와 데이터 볼트 Data Vault 전반에 걸쳐 효율적으로 쿼리하는 것은 구조가 다르기 때문에 까다로울 수 있다. MPP 쿼리 엔진과 같은 도구를 활용하고 링크 구조를 최적화하는 것은 방대한 데이터 환경을 탐색하고 원하는 통찰력을 검색하는 데 매우 중요하다.

④ 기술 및 교육 : 하이브리드 아키텍처를 구현하려면 데이터 볼트 모델링, 데이터 레이크 관리 및 데이터 통합 ​​도구에 대한 전문 지식이 필요하다. 팀 교육에 투자하거나 필요한 기술을 갖춘 사람을 모집한다.

⑤ 도구 선택 : 사용할 수 있는 도구가 많기 때문에 올바른 도구를 선택하는 것이 지뢰밭을 탐색하는 것처럼 느껴질 수 있다. ETL/ELT 파이프라인, 데이터 품질 도구, 데이터 레이크 관리 플랫폼 및 데이터 볼트 모델링 도구가 제 역할을 하지만 잘못된 도구를 선택하면 방해가 될 수 있다. 따라서 사용자의 요구 사항과 데이터 환경에 완벽하게 통합되고 조정되는 도구를 조사∙비교하고 선택해야 한다.

결론

하이브리드 아키텍처를 신중하게 구현하면 데이터 기반 조직이 데이터 볼트 2.0의 분석 능력과 함께 데이터 레이크의 유연성을 활용할 수 있다. 문제를 신중하게 해결하고 적절한 도구를 활용함으로써 조직은 다양한 데이터 자산에서 더 깊은 통찰력을 얻고 향상된 의사결정을 내릴 수 있다.

 

*필자 이르판 고와니(Irfan Gowani)는 아스테라 소프트웨어(Astera Software)의 수석 프로젝트 관리자다. 아스테라 소프트웨어는 전 세계 포춘 500대 기업에 서비스를 제공하는 데이터 솔루션 제공업체다. 코드가 없는 데이터 관리 솔루션 제품군을 통해 아스테라는 데이터 추출, 통합, 웨어하우징 측면에서 기업의 과제를 단순화하는 데 도움을 준다. 이르판은 회사의 데이터 웨어하우징 솔루션 분석과 구현, 다양한 플랫폼 간 데이터 마이그레이션, 모든 제품에 대한 품질 보증을 관리함으로써 회사 성장에 중요한 역할을 담당하고 있다.

(*이 칼럼은 GTT KOREA의 편집 방향과 다를 수 있습니다.)

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지