오늘날의 데이터 중심 환경에서 조직들은 다양한 데이터 소스를 효율적으로 통합하는 과제에 직면해 있다. 인수합병(M&A)으로 인해서든 고급 통찰력에 대한 필요성 때문이든, 간소화된 데이터 운영을 갖춘 강력한 데이터 플랫폼이 필수적이다.
데이터 패브릭은 데이터를 통합하고 관리하기 위한 설계 개념이다. 유연하고 재사용 가능하며 증강된, 때로는 자동화된 데이터 통합 또는 원하는 대상 데이터베이스로의 데이터 복사를 통해 비즈니스와 데이터 분석가들의 데이터 접근을 용이하게 한다.
역사적으로 데이터에 대한 비즈니스 소유권이 널리 사용된 방법론이었던 반면, 데이터 관리와 거버넌스는 구현의 과학으로 여겨졌다. 데이터 메시가 비즈니스 도메인에 데이터 제품 소유권을 제공하는 반면, 데이터 패브릭은 다양한 소스의 연결된 데이터로 통합된 의미론적 계층을 구축한다.

데이터 패브릭의 핵심 원칙
⦁데이터 민주화
데이터 패브릭은 제품을 구축하는 속도로 비즈니스 환경에서의 발견과 혁신을 추진한다. 데이터 민주화는 단순히 기술에 관한 것이 아니다. 그것은 사람, 프로세스, 사고방식의 변화를 포함하는 문화적 변혁이다. 이러한 원칙들을 수용함으로써 조직은 데이터의 잠재력을 완전히 발휘하고 혁신을 주도할 수 있다. 데이터 카탈로그를 구현하면 데이터를 정의하고 노출시키며, 조직의 모든 사람에게 SEARCH라는 보편적 기능을 통해 그 특성을 제공할 수 있다.
⦁데이터 가용성 용이
내부 마켓플레이스는 전략적 솔루션이며 기업 내에서 데이터를 민주화하고 교환하는 효과적인 수단이다. 데이터는 내부 마켓플레이스를 통해 접근할 수 있으며, 이는 분석가들이 사용할 수 있는 사용 가능한 데이터 자산의 중앙 집중식 저장소를 제공한다. 그러나 마켓플레이스는 시스템의 모든 데이터에 대한 무료 접근을 제공하는 것만으로는 제대로 기능할 수 없다. 데이터 관리 제어의 적극적인 관리가 필요하다. 여기에는 개인정보 보호, 보안, 인증, 암호화, 권한 부여, 사용자 접근 관리, 기기 관리, 데이터 권한 관리가 포함된다. 이러한 제어는 데이터 사전의 메타데이터로 적극적으로 관리될 수 있다.
⦁효율적인 데이터 교환
데이터 계약은 ETL/ELT 또는 가상화 기능과 통합될 때 공식화되고 필요한 경우 데이터 소비자에게 자동으로 데이터를 교환하고 전달할 수 있도록 한다. 이는 데이터 제공자와 데이터 소비자 간의 공식적인 계약으로, 데이터의 구조, 형식, 특성, 스키마를 추상적으로 설명한다. 데이터 가상화는 데이터를 이동시키지 않고도 다양한 소스의 데이터를 원활하게 통합하고 제시한다. 이러한 계약은 데이터 공유, 저장, 삭제 또는 보관에 대한 지침과 규칙을 수립하는 동시에 데이터의 신뢰성과 고품질을 관련된 모든 당사자가 신뢰할 수 있도록 보장한다.
⦁데이터 제품을 통한 혁신
데이터 제품은 통찰력, 예측 또는 권장 사항을 제공하는 애플리케이션이나 서비스이다. 실제 문제를 해결하거나 사용자 경험을 향상시키는 데이터 제품을 구축하여 혁신한다. 고객 마스터, 개인화된 추천, 사기 탐지 모델 또는 공급망 최적화 도구가 그 예이다. 제품에 데이터를 제공하는 데 평균 21일이 걸리던 것에서, 데이터 제품은 4시간 만에 데이터를 제공할 수 있어 상당한 비용 절감을 가져온다.
데이터 패브릭이 중요한 이유
⦁데이터 검색 및 적용 범위
데이터 제품을 구축하는 데 있어 데이터 범위의 중요성은 아무리 강조해도 지나치지 않다. 데이터를 찾고, 저장 위치를 이해하고, 물리적으로 어디에 위치해 있는지 파악하며, 신뢰성과 자격을 분석하는 데는 2시간에서 며칠까지 걸릴 수 있다. 데이터를 찾고 모델링 결과를 위해 데이터를 처리하는 것은 모든 데이터 과학과 인공지능 사용 사례에 매우 중요하다. 데이터를 찾는 초기 활동은 시간이 걸리는 과정일 수 있으며, 편향을 피해야 한다. 데이터가 물리적으로나 논리적으로 어디에 있는지 이해하는 것이 필수적이다. 데이터 제품에 통합하기 전에 데이터의 신뢰성을 분석해야 한다.
⦁물리적 데이터 이동 없이 플랫폼 간 이기종 데이터 소스의 원활한 통합
데이터를 물리적으로 이동하는 것은 계획, 모델링, ETL/ELT 파이프라인 개발과 함께 관련 비용이 수반되는 지루한 작업일 수 있다. 그러나 데이터 패브릭은 이러한 단계를 추상화하여 대상 데이터베이스로 데이터를 복사하는 기능을 제공한다. 그러면 분석가들은 최소한의 계획으로 데이터를 복제할 수 있으며, 데이터 사일로가 줄어들고 데이터 접근성과 발견이 향상된다. 데이터 패브릭은 추상화된 의미 기반 데이터 기능으로, 기존 인프라를 방해하지 않고 새로운 데이터 소스, 애플리케이션 및 데이터 서비스를 추가할 수 있는 유연성을 제공한다.
⦁미래 성장 요구를 해결하기 위한 확장 가능하고 유연한 솔루션
데이터 패브릭은 최적의 성능을 보장하면서도 증가하는 데이터세트와 애플리케이션을 원활하게 처리한다. 데이터 양이 증가함에 따라 패브릭은 효율성을 저해하지 않고 적응한다. 데이터 패브릭은 조직이 여러 클라우드 제공업체를 활용할 수 있도록 지원한다. 이는 유연성을 촉진하고, 공급업체 종속을 피하며, 다양한 클라우드 환경에서의 미래 확장을 수용한다.
⦁최종 사용자를 위한 셀프 서비스 데이터 접근 계층
셀프 서비스 데이터 접근은 일반적으로 최종 사용자(분석가, 비즈니스 사용자 또는 데이터 과학자 등)가 독립적으로 데이터를 탐색, 쿼리, 검색할 수 있게 해주는 도구나 플랫폼을 포함한다. 데이터 패브릭 자체는 셀프 서비스 계층은 아니지만 데이터의 가용성, 품질, 일관성을 보장함으로써 기반을 마련한다. 그러나 데이터 패브릭의 기능을 제공하는 일부 통합 도구는 셀프 서비스 기능을 제공한다.
⦁데이터에 대한 전체적인 관점, 향상된 분석 및 통찰력
데이터 패브릭은 카탈로그와 비즈니스 용어집을 기본 기능으로 확장한다. 이들은 비즈니스 용어의 특성에 대한 완전한 관점을 제공할 뿐만 아니라, 그 계보와 관리자, 소유자와 같은 데이터 인력이 관여하는 운영적 측면을 포함한 프로세스 전반에 걸친 사용에 대한 특정 통찰력을 제공한다.
⦁신뢰할 수 없는 데이터 사용의 위험 감소
고품질 데이터를 유지함으로써 조직은 잘못되거나 불완전한 정보에 기반한 결정을 내릴 위험을 줄인다. 데이터 패브릭은 단순한 데이터 품질 규칙을 적극적으로 모니터링하고 적용할 수 있다. 데이터 샘플에 대해 데이터 프로파일링과 유효성 검사를 수행하여 데이터와 그 품질에 대한 높은 수준의 관점을 제공할 수 있다. 데이터 패브릭은 거버넌스 정책, 접근 제어 및 메타데이터 관리를 통합한다. 효과적인 데이터 거버넌스는 가치를 최대화하고 무단 접근, 데이터 유출, 규정 미준수의 위험을 최소화한다. 이는 데이터가 규정, 보안 프로토콜, 개인정보 보호 요구 사항을 준수하도록 보장한다.

데이터 패브릭 이해하기
데이터 패브릭은 데이터를 전략적 자산으로 취급하는 아키텍처 접근 방식이다. 데이터의 논리적 계층을 생성하여 다양한 소스, 형식 및 위치에 걸쳐 데이터를 관리, 접근, 분석하기 위한 통합된 프레임워크를 제공한다. 데이터 패브릭의 주요 구성 요소는 다음과 같다.
1) 데이터 통합: 데이터 패브릭은 데이터베이스, API, 클라우드 데이터 서비스, 레거시 시스템과 같은 분산된 데이터 소스를 원활하게 연결하여 데이터 사일로를 제거하고 저장 유형에 관계없이 의미론적으로 데이터의 전체적인 관점을 보장한다.
2) 확장성과 유연성: 데이터 패브릭은 조직이 수평적으로 확장하고 변화하는 데이터 요구 사항에 적응할 수 있게 한다. 구조화된 데이터와 비구조화된 데이터를 모두 수용하여 인수합병 시나리오에 이상적이다.
3) 비용 절감: 데이터 패브릭을 통한 데이터 관리의 중앙화는 조직이 여러 데이터 파이프라인을 유지하는 데 관련된 운영 비용을 줄이는 데 도움이 된다. 이는 자원 활용을 최적화하고 중복을 최소화한다.
4) 고급 통찰력: AI와 머신러닝을 활용하여 데이터 패브릭은 예측 분석, 이상 탐지, 개인화된 추천을 가능하게 한다. 이를 통해 데이터 과학자와 비즈니스 분석가가 가치 있는 통찰력을 추출할 수 있다. 초점은 데이터의 논리적 계층을 생성하여 다양한 소스, 형식 및 위치에 걸쳐 데이터를 관리, 접근 및 분석하기 위한 통합된 프레임워크를 제공하는 것이다. 데이터 패브릭의 주요 구성 요소는 다음과 같다.
합병 및 인수 시나리오에서의 데이터 패브릭
합병 및 인수 과정에서 서로 다른 엔터티의 데이터를 통합하는 것은 복잡한 작업이다. 데이터 패브릭은 다음과 같은 방식으로 이 과정을 단순화한다.
-데이터 조화: 다른 저장소의 데이터를 분석하고 데이터를 공통 형식으로 마이그레이션하는 데 도움을 주어 시스템 전반에 걸쳐 일관성과 호환성을 보장한다.
-중복 감소: 데이터 패브릭은 공통성을 가져옴으로써 데이터의 중복 저장을 제거하여 저장 비용을 최소화하고 데이터 품질을 개선한다.
-의사결정 가속화: 통합된 데이터나 가상화된 데이터 또는 메타데이터에 실시간으로 접근할 수 있어 중요한 M&A 단계에서 조직이 정보에 기반한 결정을 내릴 수 있다.
-자동화된 데이터 거버넌스: AI 기반 알고리듬이 데이터 품질, 권한, 계약, 개인정보 보호 및 규정 준수 정책을 시행한다.
-예측 분석: 생성AI 모델이 과거 데이터를 분석하여 미래 트렌드를 예측함으로써 전략적 계획 수립을 강화한다.
-개인화: AI는 소비자의 데이터 요소에 대한 신뢰와 데이터 프로필에서 선호도와 행동 패턴을 이해함으로써 고객 경험을 맞춤화한다.
*필자 테하스비 아다가다(Tejasvi Addagada)는 포춘 500대 기업을 지원하는 데이터 실무자이자 컨설턴트이다. 그는 데이터 전략, 위험 관리, 앱 서비스 합리화, 디지털 변환 및 프로세스 우수성을 포함한 광범위한 서비스를 제공한다. 현재는 주요 금융 기관의 데이터 관리 및 거버넌스 운영을 총괄하고 있다. 최근 그는 ‘데이터 관리 및 거버넌스 서비스: 간단하고 효과적인 접근 방식(Data Management and Governance Services: Simple and Effective Approaches)’을 출간했다.
(* 이 칼럼은 GTT KOREA의 편집 방향과 다를 수 있습니다.)
관련기사
- 고급 데이터 분석의 세 가지 접근 방식
- 데이터 수집하는 ‘데이터 브로커’ 멈춤 없는 성장
- 비즈니스를 성공시키는 데이터 전략
- AI와 자동화 기술의 결합 ‘데이터 잠재력 극대화’
- 경쟁력 높이는 AI 성숙도 향상 전략
- 데이터 패브릭과 iPaaS 솔루션 통합의 중요성
- 지식 그래프, 과대광고 뒤에 숨겨진 이점
- [기고] 데이터 활용 가치 높이는 ‘프로세스 마이닝’
- AI 시대, ‘데이터 기반’ 비즈니스 혁신이 필요
- [기고] 데이터 가치 높이는 '데이터 관리' 5대 비법
- 예측 모델 마크업 언어 ‘PMML’...기업 데이터 활용 최대화
- 은행 업무 효율 높이는 생성AI...모델 자산화·고객 서비스로 확대
- 틸론, 기획재정부에 ‘가상 데스크톱 인프라’ 공급
- 데이터 관리에 대한 두려움을 없애는 5가지 방법
- 컴트루테크놀로지, ‘AI 기반 PC 개인정보보호 솔루션’ 조달청 등록
- 디지털 기술 발전·CX 향상 ‘추천 엔진’ 부상
- 클라우드 인프라 자동화 ‘선택 아닌 필수’
- 개인정보는 보호하고, 광고 효과 높이는 '고객데이터 플랫폼'
- 신뢰할 수 있는 데이터를 공급해야 하는 이유
- 데이터 확산의 복잡성 "데이터 패브릭·iPaaS 결합으로 해결"
- 미소정보기술 '데이터 품질 진단 서비스' K-PaaS 인증 획득
- BI·ML·AI 기반 데이터 파이프라인 구축 지원
- 맞춤화 된 검색, 구매 전환율 높여
- 넷킬러, ‘구글 챗 마이그레이션’ 솔루션 한국과 일본 기업에 공급
- 데이터 모델링 필수 도구 ‘데이터 과학 플랫폼’ 고성장
- 생성AI에 입력된 민감 데이터의 1/3 이상이 ‘규제 대상 개인정보’
- 데이터 분석의 미래, 묘사 분석
- 편향성 줄이는 AI 기반 정성적 데이터 분석
- 다양한 위험 대응 최선책 ‘위험 관리 소프트웨어’ 급부상
- 데이터 통합과 데이터 패브릭 구현의 7대 핵심
- 비용절감·고객만족도 높은 ‘셀프 서비스 기술’ 인기상승
- 기업 평균 데이터 유출 비용 사상 최고치...글로벌 약 62억9520만 원, 한국은 48억3300만원
- '3D 생성기 API' 텍스트와 이미지를 합법적 윤리적 3D 이미지로 변환
- 캔바, 이미지 생성AI 플랫폼 '레오나르도 AI' 인수로 창의적 AI 도구 강화
- 보안 방어 강화 1순위 “최소 권한 원칙”
- 데이터 통합 가속화로 ‘데이터 메시’ 급부상
- 클라우드 기반 M&A 플랫폼 ‘프로세스 자동화·투명성 증가’
- [기고] 제조업, 2030년 4.4제타 바이트 데이터 생성...데이터 패브릭 전문성 시급
