얼마 전까지만 해도 데이터 제품이 다가올 큰 트렌드였고 많은 이들이 매우 희망적이었다. 결국 데이터 제품은 단순히 데이터 그 이상이다. 데이터 제품은 정보 관리 활동을 필요로 한다. 더 나아가 비즈니스가 IT 부서에 이를 추진하도록 하고 있다.

공급업체들은 데이터 제품 마켓플레이스 소프트웨어를 개발하거나 기존 제품에 마켓플레이스 기능을 추가했다. 컨설팅 업체들은 데이터 제품 구현 서비스를 제공했다. 여러 기업들이 이 패러다임을 받아들여 자체 마켓플레이스 인터페이스와 워크플로우를 만들었다. 이는 가장 먼저 해야 할 일이 되었다.

그러나 이제는 아니다. 팬데믹 이후 데이터 제품은 레이더에서 사라진 것 같다. 그 이유는 데이터 제품을 제대로 만들려면 대부분의 사람들이 계속 거부해 온 모든 데이터 큐레이션 작업을 해야 하기 때문이고, 데이터 제품이 그 다음으로 다가오는 큰 트렌드인 생성AI에 의해 밀려났기 때문이기도 하다.

마크 쿠퍼 / 더 데이터 브레인스 대표
마크 쿠퍼 / 더 데이터 브레인스 대표

고품질 데이터 필요

기업들이 AI에는 고품질의 잘 이해된 데이터가 필요하다는 것을 인식하기 시작했다.

이는 품질이 낮거나 제대로 이해되지 않은 데이터가 그들의 모델에 미치는 부정적인 영향을 경험하고 있기 때문이다. 이에 따라 데이터 제품이 다시 부상하고 있다.

2023년 가트너의 데이터 관리 하이프 사이클(Gartner Hype Cycle for Data Management)의 이노베이션 트리거 부문에 데이터 제품이 새로운 진입자로 소개되었다. 이러한 수요가 데이터 큐레이션 노력을 추진하는 원동력이다.

데이터 제품 개념은 최근 몇 년간 정의, 참조 아키텍처, 플랫폼 등으로 구체화되었다.

분석적 데이터 소비자 또는 분석가, 데이터 과학자라면, 대부분의 시간을 먼저 데이터를 찾고, 수집하고, 검증하고, 정제하는 데 쓰게 된다. 너무나 많은 시간이 낭비된다.

데이터 웨어하우스, 데이터 마트, 데이터 레이크, 데이터 레이크하우스가 일부 수집과 찾기에는 도움이 되지만, 검증과 정제에는 효과가 없는 것 같다. 검증과 정제 기능이 여러 기존 분석 도구에 통합되고 표준 워크플로우에 내장되었다. 이는 데이터에 대한 광범위한 신뢰 부족을 시사한다. 그리고 데이터 제품으로 다시 눈을 돌리고 있다.

데이터 제품과 데이터 마트, 요약, 또는 공유 테이블의 차이점은 무엇인가?

신뢰할 수 있는 데이터 제품

소비자의 관점에서 데이터 제품의 핵심 차별점은 신뢰성이다.

데이터 제품 제공자는 신뢰할 수 있는 데이터를 제공해야 한다.

분석에 고려 중인 데이터 세트에 대해 자체적인 데이터 검증과 프로파일링 작업을 하는 것에 대해 두 번 생각하지 않는다. 식료품점 선반에서 꺼낸 콘플레이크 상자를 열어 그 안에 정말 콘플레이크가 들어있는지 확인하지 않는다. 그건 어리석은 일이다. 만약 가방, 상자, 캔에 라벨이 없다면, 각각을 열어 무엇이 들어있는지 확인해야 할 것이다. 이처럼 사용자들이 모든 데이터 가방, 상자, 캔을 열어 그 안에 무엇이 들어있는지 확인할 필요가 없어야 한다.

데이터 제품 사용자들은 필요한 데이터를 빠르고 쉽게 찾을 수 있기를 기대한다. 이를 위해서는 잘 정리되고 완전히 채워진 데이터 제품 카탈로그가 필요하다. 데이터 이해는 모든 데이터 제품의 필수적인 기반이며, 여기에는 일반적으로 예상되는 모든 요소가 포함된다. 비즈니스 설명과 의도된 용도, 예상 내용, 계보, 계산, 변환, 아키텍처, 보안, 개인정보 보호, 보존 요구사항 등이다. 이 정보가 정확하고 완전할수록 사용자들은 더 빠르고 자신 있게 필요한 데이터를 찾을 수 있을 것이다.

사용자의 관점에서 데이터 제품 마켓플레이스를 생각하고, 데이터 제품 사용자들과 대화해야 한다. 사용자들이 찾고 있는 것을 쉽게 찾고, 후보 데이터 제품들을 비교하고, 선호하는 분석 도구를 통해 해당 데이터에 접근할 수 있어야 한다.

사용자들은 데이터가 정확하기를 기대한다. 데이터 제품의 가장 중요한 특징은 그 내용이 항상 정확하다는 보증이다. 사용자들이 할 필요가 없도록 지속적인 검증, 인증, 연구를 제공해야 한다.

새로 도착하는 데이터로 데이터 제품이 최신 상태를 유지하도록 하고, 지속적으로 데이터 품질을 모니터링해야 한다. 내용 외에도 의미론에도 신경 써야 한다. 소스 시스템에서 구현되고 데이터를 통해 전파되는 비즈니스의 변화로 인해 데이터 제품의 변경이 필요할 수 있다.

데이터 제품을 만들고 큐레이팅하는 것, 그리고 데이터 제품 마켓플레이스를 배포하는 데는 많은 것이 수반된다. 하지만 그것이 사용자들에게 제공하고자 하는 서비스 수준이다. 그것은 인공지능, 머신러닝, 고급 분석 제공을 가속화하고 모델의 품질을 향상시킬 서비스 수준이다. 그것은 경쟁력 있는 차별화 요소를 만들어낼 서비스 수준이고 사용자들이 기대하는 것이다. 이는 기술적인 문제가 아니다.

데이터 중시 문화 필요

데이터 제품 개발은 무엇보다도 문화와 규율을 필요로 하는 사고방식이다.

기술은 이를 용이하게 할 수 있지만, 기술만으로는 충분하지 않다. 데이터 마트, 요약 테이블, 심지어 원시 데이터에도 큐레이션이나 모니터링이 전혀 없는 데이터 제품 라벨이 붙는 것을 보았다. 얼마나 많은 이들이 데이터가 무엇을 포함해야 하는지도 모른 채 데이터 제품이 신뢰할 수 있다고 주장함으로써 사용자들을 기만하고 있는지 궁금하다.

데이터 이해를 중요하게 여기는 문화와 이를 표준 개발 프로세스에 완전히 통합하는 규율 없이는 성공할 수 없다. 만약 AI에 관심이 있고, 모델을 훈련시키기 위해 데이터 제품을 사용하고 싶다면, 여기서 시작해야 한다.

 

*필자 마크 쿠퍼(Mark Cooper)는 더 데이터 브레인스(The Data Brains)의 창립자이자 대표이다. 그는 데이터 및 분석 분야에서 약 30년의 경력을 보유하고 있으며, 최근에는 페덱스 서비스에서 기술 책임자로 일하면서 엔터프라이즈 데이터 아키텍처와 분석에 주력했다. 마크는 데이터웨어하우스 개발자로 경력을 시작했고 엔터프라이즈 아키텍트로 전환했다. 그는 듀크대학교에서 컴퓨터 과학 및 화학 학사 학위를 취득했고, UCLA에서 컴퓨터 과학 석사 및 박사 학위를 취득했으며, 전공 분야는 인공지능이다.

(* 이 칼럼은 GTT KOREA의 편집 방향과 다를 수 있습니다.)

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지