데이터 변환은 원시 데이터와 실행 가능한 통찰력 사이의 격차를 해소하는 중요한 단계다. 이는 강력한 의사결정과 혁신을 위한 기반을 마련하고 조직이 경쟁 우위를 확보할 수 있도록 지원한다. 전통적으로 데이터 변환은 매우 복잡한 도구와 코드를 사용해 복잡한 추출, 변환 및 로드(ETL) 프로세스를 사용하는 전문 엔지니어링 팀에 맡겨졌다. 과거에는 이러한 기능이 조직에 큰 도움이 되었지만 오늘날의 비즈니스 필요에 부응하기 위해 데이터를 민주화하려는 요구에는 부적절하다는 것이 입증됐다.

라지 베인스 / 프로페시의 CEO
라지 베인스 / 프로페시의 CEO

이러한 접근 방식의 한계로 인해 민첩성 부족, 확장성 병목 현상, 활용할 특정 기술 세트의 필요성, 증가하는 복잡성과 다양성의 데이터 소스를 수용할 수 없게 됐다. 기업들이 데이터 자산에 대한 장벽을 낮추고 비즈니스 가치를 창출하고자 함에 따라 데이터의 동적 특성에 보조를 맞추기 위해 셀프 서비스, 확장성, 적응성을 포용하는 새로운 접근 방식이 필요하다.

데이터 변환의 진화

머신러닝을 위해 실행 가능한 통찰력과 완전한 데이터를 제공하려면 원시 형태의 데이터를 정제해야 한다. 오늘날의 기업들은 데이터를 정리하고, 결합하고, 필터링하고, 집계해 진정으로 유용하게 만들어야 한다. 정리를 통해 불일치와 오류를 해결하고 정확한 데이터를 결합하고 집계하면 정보를 포괄적으로 볼 수 있다. 반면 필터링은 특정 요구 사항에 맞게 데이터 세트를 맞춤화해 더욱 표적화된 분석을 수행할 수 있다.

1970년대 후반에 대중화되고 1980년대에 널리 채택된 관계형 운영 데이터베이스에는 분석 기능이 부족해 관계형 분석 데이터베이스가 등장했다. 그 이후에도 남아있는 프로세스 과제는 최신 데이터를 이러한 분석 데이터베이스로 마이그레이션한 다음 빠른 분석을 위해 이를 올바른 구조로 결합, 준비, 배치하는 것이다. 조직이 방대한 양의 데이터를 처리하는 데 어려움을 겪으면서 많은 요인들이 데이터 변환의 발전을 견인하고 있다.

데이터 분석가와 과학자는 필요할 때마다 필요한 데이터를 셀프 서비스할 수 있어야 한다. 하지만 데이터 소스와 데이터 볼륨, 데이터 유형(예: 구조화된 데이터베이스, 구조화되지 않은 스트림 등)이 기하급수적으로 증가함에 따라 대규모 데이터를 효율적으로 준비하는 것이 더 어려워졌다.

데이터의 효율적인 흐름을 활성화하려면 사전 정의된 시퀀스를 활성화해 운영 환경 내에서 흐름을 보장하고 안정성과 효율성이 모두 해결되도록 해야 한다. 그러나 기술의 발전에도 불구하고 엔지니어링 시간의 80~90%는 여전히 데이터 변환 활동에 할당되어 있어 다른 중요한 작업에 집중하지 못하고 있다.

기업 전체의 모든 데이터 사용자를 위해 데이터 변환을 진정으로 민주화하려면 포괄적이고 통합된 솔루션이 매우 필요하다.

옵션, 비주얼 ETL 또는 코드?

비주얼 ETL 도구는 수십 년 동안 데이터 변환의 중심 역할을 해왔다. 이러한 레거시 도구는 복잡한 변환을 단순화하는 시각적 표현을 제공하므로 중소기업을 포함한 더 많은 사용자가 액세스할 수 있다. 이 접근 방식은 사용자 친화적인 인터페이스를 제공하며 팀 간 협업을 촉진하고 개발 주기를 단축한다. 그러나 일반적으로 복잡한 데이터 변환에 필요한 맞춤 기능이 부족하고 대규모 데이터 작업을 처리할 수 없다는 제약이 있다.

반면, 코드 기반 방법론은 데이터 엔지니어와 기타 프로그래밍 사용자에게 매력적인 수준의 정확성과 유연성을 제공한다. 코드를 사용하면 복잡한 맞춤화가 가능하므로 세부 조정 제어가 중요한 복잡한 변환과 시나리오를 처리하는 데 이상적이다. 또한 코드 기반 접근 방식은 다양한 데이터 소스에 대해 더 확장성이 뛰어나다.

불행하게도 코딩 숙련도의 필요성으로 인해 중소기업들이 데이터를 표면화하고 분석하는 능력이 제한된다. 이는 코드에 직관적인 시각적 표현이 부족해 모든 이해관계자가 변환을 이해하는 것이 거의 불가능하고 협업을 방해하기 때문이다. 두 가지 장점을 모두 유지하면서 단점을 제거하는 통합 솔루션이 필요하다.

통합 접근 방식으로 ‘사용자, 데이터, 파이프라인’ 처리

시각적 도구의 사용자 친화적 특성과 코드의 힘을 완벽하게 통합해 사용자, 데이터 및 파이프라인을 더 효과적으로 처리할 수 있는 포괄적인 방법이 필요하다.

조직에서는 시각적인 최신 사용자 인터페이스와 코드의 맞춤 가능한 기능, 유연성을 결합해 레거시 ETL 시스템을 대체하는 완전한 솔루션을 적용하려고 한다. 이러한 접근 방식을 통해 모든 이해관계자는 사용자 친화적이고 강력한 환경에서 작업할 수 있으며, 이를 통해 기업은 ETL 프로세스를 더욱 효과적으로 현대화할 수 있다.

조직의 데이터에 액세스하고 데이터를 변환해야 하는 사용자 수가 계속 늘어나고 있다. 시각적인 셀프 서비스 인터페이스를 통해 엔지니어링 내 데이터 사용자부터 데이터 분석가와 과학자에 이르기까지 다양한 사용자 기반에서 데이터 변환에 대한 수요를 늘릴 ​​수 있다. 그러나 핵심은 벤더 종속을 방지하고 데이터 사용자가 엔지니어링팀과 동일한 표준을 사용해 고품질 파이프라인을 개발할 수 있도록 본질적으로 개방형 도구를 선택하는 것이다.

급속한 기술 발전으로 인해 새로운 데이터 소스가 탄생함에 따라 데이터는 계속해서 기하급수적으로 증가하고 있다. 데이터의 규모와 다양성이 증가함에 따라 데이터 준비가 더욱 복잡해졌다. 데이터브릭스와 같은 클라우드 기반 분산 데이터 처리 시스템에 기본으로 제공되는 고품질 코드를 자동으로 생성하고 시각적 인터페이스가 제공하는 사용 편의성을 잃지 않을 수 있는 도구가 필요하다.

데이터 변환이 수천 개로 확장됨에 따라 반복 가능한 비즈니스 논리, 거버넌스, 보안, 운영 모범 사례에 대한 표준을 마련하는 것이 필수적이다. 프레임워크를 개발함으로써 엔지니어링팀은 중소기업과 데이터 사용자들이 시각적 구성 요소를 쉽게 활용해 표준화되고 관리하기 쉬운 방식으로 데이터 파이프라인을 구축 및 구성할 수 있는 빌딩 블록을 제공할 수 있다.

이상적인 솔루션을 찾기 위한 고려 사항

셀프 서비스는 자동화 향상, 분석 향상, 협업 강화를 향한 데이터 변환의 미래다. 조직이 데이터 변환 프로세스에서 자율성을 높이기 위해 노력함에 따라 사용자가 중앙 엔지니어링팀에 크게 의존하지 않고도 더 정교한 데이터 활동에 참여할 수 있도록 직관적인 인터페이스와 자동화된 데이터 프로파일링, 증강된 통찰력이 증가할 것이다.

또한 조직은 생성AI와 LLM(대형언어모델)과 같은 최신 기술을 활용해야 한다. 이러한 ‘코파일럿’ 기능은 데이터 변환과 분석 방식을 혁신하고 있으며 시스템이 데이터 변환 측면을 자동화하고 데이터 변환 프로세스 내에서 자연어 상호 작용을 향상시킬 수 있도록 지원한다.

그러나 데이터 변환에 대한 다음 단계의 셀프 서비스 접근 방식을 수행할 때는 최적의 효율성, 민첩성, 성능을 위한 핵심 요소를 고려하는 것이 중요하다. 공급업체 종속을 방지하는 동시에 모든 데이터 사용자의 생산성을 높일 수 있는 솔루션을 찾는 것부터 시작한다. 다음으로, 데이터 엔지니어가 파이프라인 표준을 가져와서 개발한 다음 이를 중소기업에게 제공할 수 있도록 확장성에 우선순위를 둔다. 마지막으로, 전체 데이터 수명주기를 지원하는 플랫폼을 고려해 인프라 복잡성을 줄이고 규모에 맞는 파이프라인 유지 관리를 단순화한다.

시각적 도구의 직관적 매력과 코드의 정확성을 매끄럽게 결합하는 통합 접근 방식을 육성하는 것이 엔지니어링 데이터 사용자와 비즈니스 분야 전문가, 이해관계자 모두의 다양한 요구 사항을 충족하는 것이 핵심이다. 통합된 시각과 코드 기술의 시대가 도래했다. 이러한 패러다임 전환은 조직들이 민첩하고 협업적인 환경에서 데이터의 잠재력을 최대한 활용할 수 있도록 지원할 것이다.

 

*필자 라지 베인스(Raj Bains)는 프로페시(Prophecy)의 공동 창업자이자 CEO를 맡고 있다. 프로페시는 로우코드의 시각적 인터페이스와 오픈 소스 코드의 유용성을 결합해 모든 데이터 사용자의 생산성을 높일 수 있는 로우 코드 데이터 변환 플랫폼을 제공하는 업체입니다.

(*이 칼럼은 GTT KOREA의 편집 방향과 다를 수 있습니다.)

 

[알림] GTT KOREA와 월터스클루어는 오는 3월 5일(화) 오후 2시부터 3시까지 “기업의 수익성을 증대하는 ‘전사 기업성과관리(CPM)’ 플랫폼 활용 전략”을 주제로 무료 온라인 세미나를 개최한다. 급변하는 글로벌 비즈니스 환경에서 기업 고객들에게 AI 활용 고급 분석 기능이 적용돼 재무계획을 넘어 판매, 공급망, HR 등 운영 조직까지 확대해 최적의 전사적 경영계획 및 예측 정보를 제공하는 ‘확장경영계획 및 분석’도 가능한 기업성과관리 플랫폼 ‘CCH 타게틱’을 통한 기업의 수익 극대화 방안을 단계별, 사례별로 알아본다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지