데이터 설계자가 되려면 클라우드, 데이터베이스 전반, 그리고 잠재력을 극대화하는 데 사용되는 애플리케이션과 프로그램을 잘 이해해야 한다. 완전한 기능을 갖춘 데이터 설계자는 개념화 및 데이터베이스 최적화를 포함해 데이터 모델링의 모든 단계를 이해한다. 그들은 또한 지속적인 교육이 직업의 일부라는 것을 이해한다.

데이터 설계자에게 가장 많이 요구되는 두 가지 기술은 데이터 모델링과 데이터베이스 설계이다. 일반적으로 데이터 설계자는 정보 기술, 컴퓨터 과학, 컴퓨터 공학 또는 이와 유사한 분야의 학위를 보유하고 있다. 집이나 건물을 만드는 건축가처럼 데이터 설계자는 조직의 단기 및 장기 목표를 지원하는 데이터 시스템을 나타내는 청사진을 개발한다.

평균적으로 미국에서 데이터 설계자의 연봉은 약 13만 9000달러이다.

데이터 설계자는 ▲의도한 비즈니스 모델을 구현하는 데이터 처리 모델 설계 ▲주요 데이터 엔터티와 그 관계를 나타내는 다이어그램 개발 ▲설계된 시스템을 구축하는 데 필요한 구성 요소 목록 생성 등과 같은 경험이 있어야 한다.

최근까지 조직에서는 상당히 표준적인 형식의 아키텍처를 구축하고 이를 데이터 웨어하우스라고 부르는 경우가 많았다. 그러나 새로운 기술은 기업이 정보를 수집하고 고객에게 서비스를 제공하는 방식을 극적으로 변화시켰다. 이제 기업은 사건 이후의 사건에 반응하는 대신 결과와 수익을 최적화하기 위한 방법으로 요구 사항과 시장 변화를 예상하거나 예측해야 한다. 레거시 데이터를 업그레이드하지 않는 기업은 속도 저하와 비효율성으로 인해 점차 수익이 감소하게 된다.

훌륭한 데이터 설계자는 자신의 목표가 소비자에서 웹 사이트로, 그리고 다시 웹 사이트로의 데이터 흐름을 최대화하는 것임을 이해한다. 아키텍처는 특정 유형의 데이터베이스, 프로그램 및 애플리케이션을 사용해 데이터를 필터링, 정의 및 저장한다. 데이터 아키텍처는 조직의 목표를 지원하고 이를 사용하는 사람들에게 공통 언어를 제공해야 한다.

데이터 설계자는 데이터 처리를 위한 아키텍처 설계를 생성할 때 보안, 데이터 거버넌스 및 조직의 비즈니스 철학도 고려해야 한다. 이상적인 시스템 아키텍처는 비즈니스 결정을 내리는 데 도움이 되어야 한다. 설계에는 운영 데이터 저장소(실시간 운영 보고 및 비정형 데이터 정제 등을 포함한 비전통적인 데이터 운영)가 포함될 수 있다.

데이터 설계자를 위한 데이터 모델링

데이터 모델은 데이터 관계, 데이터 제약 조건, 데이터 의미론으로 구성된 개념 그룹이다. 대부분의 데이터 모델에는 데이터베이스의 데이터를 조작하기 위한 기본 작업 집합도 포함되어 있다. 데이터 모델링은 데이터베이스 설계의 첫 번째 단계로 간주된다. 데이터베이스에 포함된 데이터(컨텐츠), 데이터 항목 간의 관계 및 데이터에 대한 제한 사항을 고려한다. 이러한 개념은 광범위하게 제시되며 구현 세부 사항은 포함하지 않다. 데이터 모델링 프로세스는 데이터베이스 구조의 공식(또는 준공식) 표현을 생성한다.

데이터베이스의 목적, 사용 방법, 사용 대상을 결정하는 것이 필요하다. 데이터베이스가 복잡하거나 여러 사람이 사용하는 경우 사람들이 데이터베이스를 사용할 수 있는 방법과 시기가 설계에 포함되어야 한다. 이상적으로, 데이터 모델링 프로젝트는 설계 프로세스 중에 참조할 수 있는 자체 사명 선언문을 개발한다. 이러한 진술은 다른 모든 직원에게 전달되고 모든 사람이 동일한 내용을 공유할 수 있도록 초점을 제공한다.

데이터베이스 디자인의 역할

데이터베이스 설계를 안내하는 데 사용되는 두 가지 기본 원칙이 있다. 하나는 중복 데이터(중복 정보라고도 함)를 낭비라고 정의한다. 이는 공간을 낭비하고 불일치 및 오류 가능성을 높인다(한 버전은 업데이트되고 다른 버전은 업데이트되지 않음).

또 다른 원칙은 데이터의 정확성과 완전성이 전반적인 효율성을 향상시킨다는 것이다. 데이터베이스의 부정확한 데이터를 기반으로 한 모든 보고서에는 동일한 잘못된 정보가 포함된다. 결과적으로 이러한 보고서를 사용해 내린 결정은 득보다 실이 더 클 수 있다.

적절하게 설계된 데이터베이스는 정확한 최신 정보에 대한 액세스를 제공한다. 효율적인 디자인은 비즈니스 성공에 필수적이므로 데이터베이스 디자인의 요구 사항을 철저히 조사하는 데 시간을 투자하는 것이 좋다.

좋은 데이터베이스 디자인에는 ▲모든 데이터를 주제별 테이블로 나누어 중복 데이터 감소 ▲정보의 정확성과 무결성 보장 ▲비즈니스의 데이터 처리 목표 지원 등이 포함된다.

엔터프라이즈 데이터 아키텍처

엔터프라이즈 데이터 아키텍처 모델은 기본적으로 비즈니스 목표 달성을 위한 기반 역할을 하는 "전략적 설계 모델"이다. 현재 사용되는 많은 엔터프라이즈 데이터 모델은 메타데이터 및 데이터 거버넌스 사용을 포함해 조직의 요구 사항에 맞게 특별히 맞춤화되었다.

엔터프라이즈 데이터 모델로의 전환은 ▲데이터의 민주화(데이터 공유, 보안, 품질, 거버넌스) ▲대량의 데이터를 실시간으로 처리 ▲고객 및 고객을 위한 셀프 서비스 철학 지원 ▲예측 분석으로 전환 ▲온라인 사용자에게 더 큰 반응성 제공 ▲미래를 위한 계획(새로운 데이터 소스, 새로운 애플리케이션)와 같은 6가지 주요 비즈니스 요구 사항에 의해 주도된다.

클라우드 기반 데이터 레이크

현대 기업 데이터 아키텍처의 핵심에는 클라우드 기반 데이터 레이크를 통합하는 개념이 있다.

조직에서는 호환되지 않는 형식과 기존 데이터베이스의 제한으로 인해 데이터 사용이 차단되는 경우가 많다. 결과적으로 클라우드 기반 데이터 레이크가 데이터 웨어하우스를 빠르게 대체하고 있다(데이터 설계자의 "지속적인 교육" 책임 중 하나는 클라우드 컴퓨팅 커뮤니티 내의 현재 개발을 모니터링하는 것이다.). 하이브리드 클라우드도 인기를 얻고 있다.

데이터 레이크는 데이터 웨어하우스와 달리 비정형, 반정형, 정형 등 모든 데이터 유형을 저장한다. 데이터 레이크에서 데이터는 원시 형식으로 저장된다. 데이터 레이크의 설계 방식으로 인해 데이터를 캡처하는 동안 데이터를 정의할 필요가 없다. 데이터는 읽기 전에 정의된다. 데이터 레이크는 관계형 소스(데이터베이스) 및 비관계형 소스(예: 소셜 미디어 및 IoT 장치)의 데이터를 저장할 수 있다. ETL(추출, 변환, 로드)이 필요하지 않으므로 데이터를 분석에 사용할 수 있게 만드는 프로세스가 간소화된다.

클라우드 기반 데이터 레이크는 확장성이 뛰어나며 합리적인 가격으로 대량의 데이터를 지원할 수 있다. 데이터 설계자가 클라우드 계정을 설정하는 동안 보다 전문적인 클라우드 엔지니어 와 소통하고 작업할 가능성이 높다.

데이터 설계자의 책임

데이터 설계자는 조직의 데이터 관리 전략 프레임워크를 지원하고 데이터가 안전하고 효율적으로 관리되도록 보장한다. 데이터 설계자가 되려면 일반적으로 수년간의 경험이 필요한다. 이들의 기본 책임 중 일부는 ▲엔터프라이즈 데이터 관리 프레임워크 설계 ▲데이터 모델 설계 ▲데이터베이스 개발 표준 ▲데이터 웨어하우스 구현 및 관리 ▲데이터 분석 시스템 ▲데이터 보안 및 규정 준수 보장 등이 있다.

또한 데이터 설계자는 데이터 자산을 추적하고, 사용량을 결정하고, 통합 및 저장하는 프레임워크를 만든다. 또한 RDBMS 및 SQL 시스템, 분석 플랫폼, Java 및 Python, ETL, Hadoop, Spark, Yarn, Kafka 및 기타 도구에 대한 깊은 이해가 있어야 한다.

 

(*이 칼럼은 GTT KOREA의 편집방향과 다를 수 있습니다.)

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지