불길한 이름을 제쳐두면, 다크 데이터(dark data)는 본질적으로 나쁜 것은 아니다.

다크 데이터는 일반적으로 구조화되지 않은 데이터지만, 기업이 수집하고 저장하지만 사용하지 않는 반구조적 또는 구조화된 데이터일 수도 있다.

이는 명백한 비효율성과 기회 낭비를 의미한다. 이러한 유형의 데이터는, 보관 비용은 여전히 적용되지만 분석이 가져올 수 있는 잠재적인 이점은 제외된다. 일반적으로 간과되는 이러한 보물 같은 데이터는 보안과 규정 준수 측면에서 취약점이기도 하다.

날라 데이비스 / 소프트웨어 개발자이자 기술 작가
날라 데이비스 / 소프트웨어 개발자이자 기술 작가

다크 데이터는 극단적인 경우가 아니며 어디서나 볼 수 있는 문제다. 스토리지 제공업체인 씨게이트의 조사에 따르면 데이터의 68%가 이 범주에 속한다.

그러나 모든 것이 그렇게 어둡지는 않다. 이는 광범위한 문제이지만, 이 숨겨진 자원을 활용해 부채를 자산으로 전환할 수 있는 방법이 있다.

다크 데이터란 무엇이며 왜 간과되는가?

서버 로그 파일, 사용되지 않은 고객 정보, 구조화되지 않은 소셜 미디어 데이터 등 다양한 소스에서 매일 생성되는 데이터는 종종 따로 보관되거나, 너무 복잡하거나, 관련성이 없거나, 단순히 잊혀지는 것으로 간주된다.

그런데 왜 이 데이터는 여전히 알려지지 않은 채 남아 있을까? 몇 가지 중요한 이유가 있다.

① 관련성이 없다고 인식 : 조직에서는 이 데이터가 오래되었거나 중복된 것으로 간주하는 경우가 많다.

② 복잡성 및 형식 제한 : 다크 데이터의 구조화되지 않은 특성으로 인해 기존 도구로 처리하기가 어려울 수 있다.

③ 인식 부족 : 많은 기업들이 이 데이터의 존재조차 인식하지 못하고 있다.

④ 중복되거나 쓸모없거나 사소한(ROT) 데이터 : 종종 동일한 데이터의 여러 복사본으로 인해 불필요하거나 구식인 정보가 축적돼 다크 데이터 현상에 크게 기여한다.

⑤ 불완전한 데이터 통합 : 비효율적인 통합 프로세스로 인해 데이터 격차와 불일치가 발생해 일부 데이터 세트가 격리되거나 액세스할 수 없게 될 수 있다.

이는 개선될 수 있지만 기술 환경의 방향은 다크 데이터가 항상 어느 정도 문제가 될 것이다. 클라우드 자동화와 같은 새로운 기술을 통합할 때마다 완전히 새로운 데이터 범주가 발생하는데, 이는 다크 데이터의 위험을 안고 있으며 활용도가 떨어질 것이다. 또한 여기에는 비용 관련 데이터가 포함돼 있어 조직이 자동화에 대한 가치 있는 투자와 비효율적인 지출을 구별하기가 어렵다.​​

다크 데이터 조명하기

다크 데이터를 발견하고 액세스하면 조직 내에서 데이터 탐색을 할 수 있다. 이러한 숨겨진 데이터 보물을 밝히는 방법이 있다.

① 데이터 프로파일링 : 데이터 프로파일링 도구는 방대한 양의 데이터를 조사하여 패턴, 변칙 및 귀중한 통찰력을 파악한다. 데이터세트와 데이터 레이크에서 이러한 도구를 실행하는 것은 활용도가 낮은 데이터를 식별하는 첫 단계다.

② 데이터 통합 : 데이터를 프로파일링한 후에는 통합 개요를 위해 다양한 소스를 통합하는 것이 중요하다. 서로 다른 데이터 소스를 분석하면 전체적인 관점을 얻을 수 없으며, 거기서 얻은 통찰력의 가치도 훨씬 떨어진다.

③ 데이터 정리 및 전처리 : 이제 수량 및 저장 문제가 해결되었으므로 수집되고 정리된 데이터 중 많은 부분을 사용할 수 있는지 확인해야 한다.

④ 자연어 처리(NLP) : NLP는, 소셜 미디어 채팅, 고객 피드백과 같은 구조화되지 않은 데이터를 분석에 적합한 형식으로 변환하는 번역기 역할을 한다.

⑤ 외부 전문가 자문 : 때로는 눈에 잘 띄지 않는 숨겨진 내용을 찾아내기 위해 외부 전문가가 필요하다. 컨설턴트들은 다크 데이터를 발굴하고 활용할 수 있는 새로운 시각과 전문 도구를 제공한다.

⑥ 내부 액세스 및 관리(IAM) 설정 감사 : 누가 어떤 데이터에 액세스할 수 있는지 검토하는 것이 중요하다. 때로는 엄격한 액세스 제어로 인해 귀중한 데이터가 잠겨 있는 경우도 있다.

⑦ 내부 전략 구현 : 여기에는 이전에 간과되었을 수 있는 데이터를 인식하고 가치를 부여하도록 팀을 교육하는 것이 포함된다.

핵심은 이 데이터를 찾는 것뿐만 아니라 액세스하고 사용할 수 있는지 확인하는 것이다. 모든 데이터 바이트는 잠재적으로 가치를 가질 수 있다.

다크 데이터에서 통찰력 추출

다크 데이터를 조명한 후 다음 단계는 이를 분석해 실행 가능한 통찰력을 얻는 것이다.

1 ) 고급 AI 알고리듬 : AI를 사용하면 뒤죽박죽된 서로 다른 데이터 포인트를 일관되고 통찰력 있는 그림으로 바꿀 수 있다.

2) 머신러닝 및 데이터 마이닝 기술 : 이러한 기술은 데이터와 함께 발전해 의미 있는 패턴과 예측을 추출하는 능력을 지속적으로 향상시킨다.

3) 다크 데이터 분석 솔루션 : 포괄적인 분석 플랫폼은 방대한 양의 다크 데이터를 처리 및 분석해 숨겨진 기회와 위험을 조감할 수 있다.

데이터를 의사결정으로 전환

진정한 마법은 분석된 다크 데이터가 실용화될 때 일어난다. 비즈니스의 다양한 측면을 어떻게 개선할 수 있는지에 대한 몇 가지 예를 살펴보겠다.

· AI 통찰력 : 다크 데이터는 AI 시스템에 정보를 제공하여 AI의 통찰력을 강화할 수 있다. 예를 들어 과거 고객 데이터는 미래의 트렌드에 대한 예측 모델을 향상시킬 수 있다..

· 운영 효율성 : 이전에 사용되지 않은 로그 데이터를 분석하면 시스템의 비효율성이 밝혀져 운영 워크플로우가 개선될 수 있다.

· 위험 관리 및 규정 준수 : 다크 데이터는 위험 평가 및 규정 준수 향상의 열쇠가 될 수 있다. 기업들은 이 데이터를 분석해 잠재적인 규제 문제를 선제적으로 해결할 수 있다.

· 고객 경험 향상 : 다크 데이터는 고객 행동의 숨겨진 패턴을 찾아내어 더 개인화되고 효과적인 고객 서비스 전략을 수립하고 만족도를 높이며 잠재적으로 비용을 절감할 수 있다.

따라서 다크 데이터를 효과적으로 마이닝하고 분석하면 의사결정의 강력한 동맹자가 되어 수익에 큰 영향을 미칠 수 있는 통찰력과 기회를 제공한다.

데이터 중심 문화 구축

오늘날 빠르게 진화하는 데이터 환경에서 데이터 중심 문화를 육성하는 것은 실질적인 필수 요소다. 그러한 환경을 조성하기 위해 노력할 수 있는 방법이 있다.

· 데이터 활용 능력 강조 : 읽기, 쓰기와 마찬가지로 데이터 리터러시는 조직 내에서 (솔직히 말해서 일반적으로) 기본적인 기술이어야 한다. 이는 모든 사람이 데이터의 힘과 잠재력을 이해하도록 하는 것이다.

· 데이터 기술 채용 : 여기에는 데이터를 이해할 뿐만 아니라 이를 효과적으로 해석하고 활용할 수 있는 사람을 찾는 것이 포함된다. 목표는 데이터 중심 세계를 경쟁적이고 쉽게 탐색할 수 있는 구성원을 팀에 추가하여 추가적인 가치를 확보하는 것이다.

· 교육 기회 제공 : 워크숍, 온라인 강좌 또는 교육 기관과의 협력을 통해 데이터 분석, 머신러닝 및 기타 관련 분야에 대한 교육을 제공한다.

· 의사결정에 데이터 통합 : 데이터가 모든 전략 논의의 출발점이라는 사고방식의 변화가 필요하다. 이는 정기적인 비즈니스 검토 및 전략 계획 세션에 데이터 분석을 통합하는 것을 의미한다.

기업 문화는 고정돼 있지 않으며 ‘설정하고 잊어버리는’ 거래가 아니다. 데이터 중심성을 포함해 기업 문화와 관련된 목표를 달성하려면 지속적이고 신중한 노력이 필요하지만 미래에 도움이 될 것이다.

다크 데이터의 어두운 면

다크 데이터는 엄청난 잠재력을 갖고 있지만 윤리적 고려 사항과 위험도 수반된다.

· 데이터 개인정보 보호 문제 : 훌륭한 데이터에는 큰 책임이 뒤따른다. 데이터 통찰력을 추구하는 것이 개인정보 보호 권리를 침해하지 않도록 한다.

· 지속 가능성 및 환경 문제 : 세계경제포럼(World Economic Forum)에 따르면 기업들은 매일 13억 기가바이트의 다크 데이터를 생산한다. 데이터센터가 뉴욕에서 런던까지의 항공편 300만 회에 운항하는 것보다 더 많은 온실가스를 배출하고 있다 이는 더 악화될 것이다.

· 오용 가능성 : 사용과 오용 사이에는 얇은 선이 있다. 예를 들어, 보험회사가 제3자 데이터를 사용해 담보 부동산 대출이나 모기지에 대한 의사결정에 영향을 미쳐 인해 다소 디스토피아적인 미래로 이어질 수 있다.

· 책임 있는 데이터 관리 : 단순히 데이터를 수집하고 분석하는 것이 아니라 책임감 있게 관리해야 한다. 여기에는 데이터 보안 보장, 윤리적 표준 준수, 데이터 사용에 대한 투명성이 포함된다.

빅데이터 시대에 신뢰와 무결성을 유지하려면 이러한 문제를 정면으로 해결해야 한다.

다크 데이터의 미래

미래의 데이터와 AI 환경에서 다크 데이터의 역할은 더욱 중요해질 것이다.

다크 데이터 영역은 AI와 머신러닝의 발전에 힘입어 지속적으로 진화하고 있다. 이러한 진화는 기업이 아직 활용되지 않은 데이터를 보고 사용하는 방식을 바꾸고 있다.

경쟁에서 앞서나간다는 것은 현재의 데이터 관행을 이해하는 것뿐만 아니라 미래 추세도 예측하는 것이다. 새로운 데이터 소스를 탐색하거나 새로운 분석 기술을 채택하는 것도 포함된다.

혁신적인 조직은 다크 데이터 활용에 능숙해야 한다. 존재를 인식할 뿐만 아니라 전략적 계획과 운영 프로세스에 완전히 통합해야 한다.

다크 데이터의 미래는 놀라울 정도로 밝다. 진화하는 환경을 효과적으로 탐색할 수 있는 기업은 성공과 혁신의 새로운 차원으로 나아가며 지속 가능성 문제에 기여할 수 있는 통찰력으로 무장하고 데이터 중심 세계의 최전선에 서게 될 것이다.

 

*필자 날라 데이비스(Nahla Davies)는 소프트웨어 개발자이자 기술 작가다. 기술 문서 작성에 전념하기 전에는 삼성, 타임 워너, 넷플릭스, 소니 등을 고객으로 두고 있는 5000개 체험 브랜딩 조직에서 수석 프로그래머로 일했다.

(*이 칼럼은 GTT KOREA의 편집 방향과 다를 수 있습니다.)

 

[알림] GTT KOREA와 월터스클루어는 오는 3월 5일(화) 오후 2시부터 3시까지 “기업의 수익성을 증대하는 ‘전사 기업성과관리(CPM)’ 플랫폼 활용 전략”을 주제로 무료 온라인 세미나를 개최한다. 급변하는 글로벌 비즈니스 환경에서 기업 고객들에게 AI 활용 고급 분석 기능이 적용돼 재무계획을 넘어 판매, 공급망, HR 등 운영 조직까지 확대해 최적의 전사적 경영계획 및 예측 정보를 제공하는 ‘확장경영계획 및 분석’도 가능한 기업성과관리 플랫폼 ‘CCH 타게틱’을 통한 기업의 수익 극대화 방안을 단계별, 사례별로 알아본다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지