2024년에 기업은 다이어그램 요구 사항에 대한 실용적인 계획 및 활동에 참여하면서 데이터 모델링의 이점에 새로운 관심을 갖게 되었다. 조직은 우수한 데이터 품질을 얻고 문제를 극복하기 위해 데이터 아키텍처를 문서화하기를 원한다.

특히, 각 데이터 사고에 대한 해결 시간은 2022년에서 2023년 사이에 15시간이나 크게 늘어났다. 또한 데이터 경영진과 비즈니스 리더의 80%는 문화적 장애물(사람, 비즈니스 프로세스, 조직 조정)이 데이터 기반 접근 방식을 방해한다고 말한다.

그러나 데이터 아키텍처를 다이어그램으로 작성하려는 과거의 노력은 어려운 것으로 입증되었다. 많은 조직이 전체 엔터프라이즈 시스템을 모델링하려고 시도하지만 데이터 솔루션을 이해하지 못한다. 이러한 문제를 더욱 복잡하게 만드는 일부 회사는 여전히 비즈니스맨을 위협할 수 있는 오래된 데이터 모델링 도구에 의존하고 있다.

결과적으로 기업 내에서 좌절감이 커지고 데이터 솔루션이 구축될 때까지 모델링 프로세스를 건너뛰는 경향(코드 우선 접근 방식)이 발생하거나 부족 지식을 통해 데이터 아키텍처에 대한 기초적인 이해가 이루어집니다. 불행하게도 이러한 상황은 종종 데이터 시스템을 이해하고 소급하여 문제를 해결하는 고통스러운 과정을 초래한다.

이러한 경험을 바꾸기 위해 실용적인 데이터 모델링은 보다 원활하고 효율적인 설계 우선 접근 방식을 약속하여 기업이 데이터의 의미와 맥락에 대한 공유된 이해를 확립할 수 있도록 지원한다. 해코레이드(Hackolade)의 창립자이자 CEO인 파스칼 데스마레츠(Pascal Desmarets)는 실용적인 데이터 모델링의 이점에 대해 논의하고 NoSQL 또는 비관계형 데이터베이스용 시각적 도구를 만드는 데 대한 전문 지식을 공유하여 이러한 현대적인 접근 방식이 어떻게 더 나은 경험으로 이어지는지 보여주었다.

NoSQL 데이터 아키텍처에 적응

현대 기술은 대량의 데이터를 신속하고 빠르게 확장하여 처리하는 NoSQL 데이터베이스 시스템을 수용한다. 그러나 그들은 다른 언어를 사용한다. 따라서 데이터 모델러는 다른 사고방식을 취해야 했다.

데스마레츠는 “조직이 관계형 데이터베이스 관리 시스템(RDBMS)을 사용하여 과거처럼 데이터 모델링을 수행한다면 시간을 낭비하게 된다. 서로 다른 RDBMS는 서로 다른 SQL 방언으로 동일한 언어를 사용하지만 최신 기술은 매우 다르게 통신한다. Neo4j Cypher로 작성된 그래프 데이터 시스템은 고유하게 구성되며 데이터를 직렬화하고 교환하는 데 사용되는 Avro 스키마와 다르다. 둘 다 오픈 API 문서와는 아무런 관련이 없다.”고 말했다.

NoSQL 기술을 대규모 데이터 인프라에 신중하게 통합하는 것은 새로운 기회를 포착하고 새로운 위협을 즉시 완화하려는 기업에게 매우 중요하다. 모델러의 가파른 학습 곡선에도 불구하고 이러한 시스템의 확산은 애플리케이션에 일련의 기능적 기능을 제공하는 서비스 모음인 이벤트 중심 아키텍처 및 마이크로 서비스에 대한 더 많은 옵션을 제공한다.

개발자가 개방형 플러그인 데이터 구조를 적용하거나 더 많은 부티크 서비스를 얻기 위해 앱을 작성함에 따라 데이터 아키텍처의 복잡성은 증가할 뿐이다. 더욱이 많은 기업은 데이터 스택과 파이프라인에 다양한 기술의 모자이크를 보유하고 있다. 데스마레츠는 조직이 구축 중인 내용을 이해하려면 데이터 모델링 도구가 이러한 모든 기술의 언어를 말하고 다중 언어 지속성이라고 알려진 일관된 번역에 적응해야 한다고 조언한다.

다중 언어 지속성의 이점

다중 언어 지속성은 데이터 아키텍처 구성 요소 또는 스키마 간의 잘못된 변환으로 인해 조직이 일관되지 않거나 잘못된 데이터를 잃거나 갖는 것을 방지한다. AI 애플리케이션이 환각을 일으키거나, 잘못된 추천을 생성하거나, 잘못된 결과를 검색할 때 두 가지 요소가 모두 관련된다.

데스마레츠는 “스키마는 데이터 생산자와 소비자 사이에 사용되는 데이터 계약을 나타낸다. 이러한 계약은 데이터 품질과 일관성을 강화해야 한다. 데이터 애플리케이션 시스템은 스프린트 중에 변경사항이 적용되면서 매우 빠르게 발전한다. 따라서 30개 이상의 대상 기술을 지원하는 해코레이드와 같은 데이터 모델링 도구는 다중 언어 지속성과 데이터 교환에 필수적이다.”고 말한다.

스키마는 매우 다양한 비관계형 기술을 사용하여 모든 유형의 방향으로 이동하므로 다중 언어 지속성이 필요하다. 이렇게 하면 사람과 시스템이 데이터 개념을 효과적으로 전달할 수 있다.

목적이 있는 모델링

관리자는 복잡한 문제에 대해 비용 효율적이고 목적이 있는 솔루션을 찾는 경우가 많다. 이를 추구하면서 일부 사람들은 산업 모델, 비즈니스 부문에 맞게 사전 설계된 데이터 매핑 또는 기타 생성AI 솔루션에만 의존하려는 유혹을 받을 수 있다.

하지만 산업 모델이나 생성AI로 시작하면 좋은 결과보다는 작업이 더 많아진다. 데스마레츠는 팀이 유능한 모델을 얻는 능력을 과대평가하고 더 이상 주제 전문가(SME)가 필요하지 않다고 생각한다는 사실을 관찰했다.

이러한 불가지론적 모델을 구현하면 비즈니스 요구 사항을 해결하지 못하는 단순한 학술 활동이 될 수 있다. 사업가들은 데이터 뒤에 숨은 어휘, 용어, 목적을 알고 있기 때문에 공백을 메운다.

데스마레츠는 비즈니스 전문가와 협력한 후 산업 모델이나 생성AI 리소스를 사용할 것을 제안했다. 그런 다음 이러한 기술을 체크리스트로 참조하여 필요한 기능이 포함되었는지 확인한다.

그는 “데이터 모델링에 산업 모델이나 생성AI를 포함하되 시작점이 되는 자유 흐름 프롬프트로는 포함하지 마라. 이러한 도구는 마술 지팡이처럼 작동하지 않는다. 은행 관리자가 어디에 있다고 가정하고 기술에 데이터 모델을 뱉어 내도록 요청해보라. 그런 접근 방식은 결코 효과가 없을 것이다.”고 했다.

데이터 모델링 프로세스에 SME를 참여시켜 조직은 결과 모델이 특정 비즈니스 목적에 부합하는지 확인할 수 있다. 이는 명확하고 의미 있는 목적을 가진 데이터 모델을 만드는 데 귀중한 리소스이다.

도메인 중심 설계의 이점

기업이 모델링 활동에 SME의 참여를 수용함에 따라 데이터 아키텍처 결정은 소수의 기술 개인의 책임에서 협력적인 노력으로 발전한다. 협업을 향한 이러한 변화는 조직이 분석 데이터를 공유, 액세스 및 관리하기 위한 분산형 사회기술적 데이터 아키텍처 접근 방식인 데이터 메시를 채택함에 따라 더욱 잘 드러난다.

실용적인 데이터 모델링은 도메인 중심 설계를 강조하여 조직에 상당한 이점을 제공한다. 데스마레츠에 따르면 도메인 중심 디자인 원칙은 구성 요소에 초점을 맞춘 도메인 중심 개발 방법론에서 파생된다.

그는 도메인 중심 디자인의 주요 원칙은 ▲복잡한 문제를 관리 가능한 작은 조각으로 분해 ▲프로젝트 및 사업부의 다양한 단계에서 일관된 용어 사용 ▲중소기업을 참여시키고 그들과 긴밀히 협력하는 것이라고 말했다.

이러한 맥락에서 해코레이드에서 제공하는 것과 같은 AI 기능과 모델링 도구를 통합하는 것은 매우 중요하다. 데스마레츠는 이러한 도구를 통해 중소기업이 "데이터 요구 사항을 더 좋고 효율적으로 모델링하고 설명"할 수 있다고 말했다. 비즈니스 전문가의 전문 지식과 AI 기능을 활용해 조직은 관련 쿼리 패턴에 더 잘 액세스하고 데이터 모델링 도구의 효율성을 극대화할 수 있다.

단일 정보 소스

데이터 솔루션을 설계하고 구현하는 것은 모든 사람이 현재 사용 가능한 것과 변경해야 할 사항에 대해 동일한 입장에 있을 때 가장 잘 작동한다. 따라서 CI/CD(지속적 통합/지속적 전달) 파이프라인을 실행하는 데 필요한 공유된 이해를 얻으려면 단일 정보 소스를 확보하는 것이 중요하다.

문제는 많은 기업이 데이터 카탈로그, 데이터브릭스(통합 분석 플랫폼), 컬리브라(데이터 거버넌스 플랫폼) 또는 기타 데이터 관리 제품군과 같이 단일 정보 소스 역할을 하는 여러 애플리케이션을 가리킬 수 있다는 것이다.

데마레츠는 “여러 진실 소스를 사용하면 소스의 각 버전이 다른 소스와 다르기 때문에 더 이상 표준화가 필요하지 않다. 데이터 아키텍처의 개발이 매우 빠르게 진행됨에 따라 개정 수가 증가하여 체인에 많은 링크가 생성된다. 결과가 다양해지기 시작하고 프로덕션의 스키마가 데이터 거버넌스가 보유한 기본 데이터 모델과 너무 많이 달라지는 데 시간이 거의 걸리지 않다.”고 경고했다.

이 문제를 해결하기 위해 데스마레츠는 깃허브(GitHub), 젠킨스(Jenkins) 또는 CI/CD 파이프라인과 같이 개발자가 코드를 업데이트하고 제출하는 모든 장소를 동기화할 것을 권장했다. 결과적으로 엔지니어는 배워야 하는 다른 프로그램에 변경 사항을 기록할 필요가 없으므로 효율성이 향상되고 모든 다른 버전에서 발생할 수 있는 혼란의 위험이 줄어든다. 또한 동기화 프로세스는 데이터 아키텍처 변경 사항에 대한 메타데이터를 생성하여 단일 정보 소스에 대한 추가적인 이해를 제공한다.

코드로서의 메타데이터의 이점

조직은 자동화된 도구를 사용하여 데이터 아키텍처를 설명하는 정보인 메타데이터를 통해 다양한 시스템에서 데이터 모델 버전을 동기화해야 한다. 데스마레츠는 코드 메타데이터를 코드로 사용하여 이 작업을 수행할 것을 제안했다. 이렇게 하면 개발자 업데이트가 다른 데이터 애플리케이션 및 보기와 동기화된다.

그는 메타데이터의 다양한 원리를 코드로 설명했다. 데이터 모델은 동일한 라이프사이클 또는 버전에서 생성된 코드로서 메타데이터와 일치해야 한다. 개발자가 코드와 변경 사항을 시스템에 배포하면 이 스키마는 데이터 카탈로그, 데이터브릭스, 콜리브라(Collibra) 등과 같은 정보 소스 역할도 하는 대상 기술에 자동으로 전파되어야 한다.

해코레이드 제품군에 구현된 대로 데이터 모델 동기화가 자동으로 발생해야 한다. 메타데이터를 코드로 사용하면 데이터 모델을 실시간으로 업데이트하고 정확하게 유지할 수 있으므로 기업은 데이터 아키텍처 업데이트를 효율적으로 관리하고 단일 정보 소스를 가리킬 수 있다.

결론

실용적인 데이터 모델링은 기업이 우수한 데이터 품질을 위해 데이터와 해당 컨텍스트에 대한 공통된 이해를 확립하는 것이 중요하다는 것을 인식함에 따라 꼭 필요한 이점을 제공한다.

데스마레츠는 세 가지 주요 데이터 이점에 대해 ▲다중 언어 지속성 ▲도메인 중심 디자인 ▲코드로서의 메타데이터를 강조했다. 스키마를 개정할 때 이러한 기능을 고려하는 것이 중요하다.

앞으로 데이터 모델링 관행의 AI는 데이터 아키텍처 업데이트를 원활하게 만들 것을 약속한다. 데스마레츠는 모델링이 데이터 모델링에 대한 사용자 입력에 의존하는 것에서 지능적인 제안을 제공하고 더 나은 건설을 위한 귀중한 통찰력을 제공하는 것으로 발전할 것으로 기대한다.

미래의 데이터 모델링을 통해 중요한 고객이 공급업체에 권장 사항을 제안하고 판매하여 관련된 모든 사람에게 윈윈(win-win) 상황을 만들 수 있다는 것을 누가 알 수 있을까?

 

[알림] GTT KOREA와 전자신문인터넷이 공동으로 주최하는 ‘Data Insight & Security Summit(DISS) 2024’에서는 “AI 트랜스포메이션, 데이터 이노베이션”을 주제로 데이터 산업을 이끌고 있는 글로벌 리더들이 AI 기반 데이터 활용과 전략 수립에 난항을 겪고 있는 기업들에게 효과적인 데이터 관리와 인사이트, 강력한 데이터 보안 전략을 제시한다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지