데이터 카탈로그(Data Catalog)는 기업이 보유한 모든 데이터 자산의 목록을 체계적으로 정리하고, 설명·출처·형식과 같은 메타데이터를 붙여 쉽게 검색 및 활용할 수 있는 중앙 저장소다.

기업의 데이터는 각 시스템·부서·프로젝트마다 산재돼 필요한 데이터를 찾는 데 시간이 걸리고, 오래되고 중복된 데이터가 섞여 있어 어떤 데이터를 믿고 쓸 수 있는지 파악이 어렵다.

따라서  필요한 데이터를 쉽게 찾고, 바로 분석·활용할 수 있어야 데이터 기반 의사결정이 빨라져 기업은 데이터 카탈로그를 적극적으로 활용해야 한다. 하지만 데이터 카탈로그는 검색 과정이 복잡해 활용도가 낮은 경우가 많다. 

엔터프라이즈 데이터 카탈로그 플랫폼 기업 데이터월드(data.world)가 데이터 카탈로그 활용을 높이고, 데이터 검색 과정을 혁신하는 AI 기반 카탈로그 어시스턴트 ‘아치 챗(Archie Chat)’을 출시했다.

자연어 기반 대화형 소통·보안 강화

아치 챗은 AI 기술에 언어 모델 아키텍처와 지식 그래프 기술을 결합해 데이터 카탈로그와 자연어 기반 대화 방식으로 상호작용할 수 있다. 사용자는 자연어로 원하는 정보를 질의하면 아치 챗이 실시간으로 적합한 데이터를 찾아 제공해 전문적인 쿼리 작성 능력 없이 쉽게 필요한 데이터를 검색할 수 있다.

아치 챗은 엔터프라이즈 데이터 환경에 특화돼 보안, 정확성, 맥락적 적합성을 강화했다. 자체 호스팅 언어 모델 기술로 민감한 데이터가 고객 환경 내에서 관리되며, 검색 결과의 출처와 추론 과정을 문서화해 제공한다.

또한, 사용자가 이전 질의에 이어 후속 질의나 추가 요청을 자연스럽게 이어갈 수 있는 멀티턴 대화 기능을 지원하며, 슬랙(Slack), 브라우저 인터페이스, 공개 API 등 다양한 업무 환경과 연동할 수 있는 크로스 플랫폼 호환성도 갖추고 있다.

신규 분석가 온보딩 과정에서도 카탈로그 탐색과 데이터 이해도를 높여 교육 부담을 완화할 수 있고, 비즈니스 팀이 필요 데이터를 더 빠르게 찾을 수 있어 인사이트 도출을 가속할 수 있다.  데이터 거버넌스 담당자는 반복되는 데이터 요청에 응답하는 대신, 아치 챗으로 데이터 검색·관리 역량을 강화하도록 유도해 업무 부담을 줄일 수 있다.

데이터 카탈로그는 지속적으로 데이터를 등록·관리·공유하는 시스템이다. 사용자가 적으면 새로운 데이터가 등록되지 않고, 기존 데이터도 업데이트되지 않아 금방 낡고 쓸모없게 된다. 결국, 일부 데이터 담당자만 쓰는 폐쇄적 시스템으로 전락해 필요한 데이터가 있을 때도 카탈로그를 거치지 않고 개별 문의하는 비효율이 반복된다.

데이터 홍수 속에서 아치 챗은 데이터 카탈로그의 활용도를 높일 것으로 기대된다. 대화형 검색 방식으로 진입장벽을 낮춰 더 많은 구성원이 손쉽게 카탈로그에 접근하도록 유도할 수 있을 것이다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지