
AI 모델을 훈련할 때 AI 앱의 정확성은 수신되는 훈련 자료의 품질에 따라 달라진다. 당연히 필요한 것보다 더 많이 공급하거나 충분하지 않게 공급하면 비용이 많이 들거나 모델이 좋지 않게 된다. AI를 사용하면 최소의 비용으로 신속하게 결과를 얻을 수 있다. 이를 수행하는 가장 좋은 방법은 필요한 데이터만 제공하는 것이다.
그러나 비정형 데이터(대부분의 기업에서 수 페타바이트)의 크기와 스토리지 사일로 전반에 걸친 분산을 고려할 때 특정 데이터 세트를 선별하고 분류하는 것은 어렵다.
데이터에 대한 데이터 인 메타데이터를 입력한다. 메타데이터는 스토리지 기술에 의해 자동으로 생성되며 데이터 소유자, 파일 형식, 위치, 액세스한 사람 등 데이터에 대한 더 나은 통찰력을 제공한다. 이 시스템 수준 정보는 데이터 관리에 매우 유용하지만 사용자와 애플리케이션이 흔히 갖는 추가 컨텍스트가 부족하다.
추가 메타데이터는 데이터의 내용(예를 들면 유방암과 췌장암을 비교한 임상 이미지 또는 유명인이나 졸업생의 이미지)별로 데이터에 태그를 지정하고 민감한 정보나 프로젝트, 지리 또는 인구통계와 관련된 정보(세계 여성에 대한 연구)에 태그를 지정하는 등 정보를 향상시킬 수 있다. 북동부 지역) 또는 특정 이니셔티브(2022년 제품 X의 테스트 데이터 제조)와 관련된다. 메타데이터는 구조화되지 않은 데이터 에 구조를 제공하여 AI 도구에 사용할 올바른 데이터를 찾는 노력에 큰 도움이 될 수 있다.
메타데이터의 머신 러닝 강화의 이점
메타데이터를 관리하고 강화하는 것은 데이터에 정확하게 태그를 지정하기 위해 IT와 부서(데이터 과학자 및 데이터 소유자)간의 협력이 필요하기에 시간이 많이 걸리는 프로세스이다. 태그를 지정하면 파일 데이터에 키-값 쌍의 형태로 추가 메타데이터가 추가되어 데이터에 대한 컨텍스트를 제공한다. 파일에 여러 태그를 사용하는 한 가지 예는 국가 = US, 프로젝트 ID = 123, HIPAA = TRUE이다. 그러나 대규모 데이터 세트에 수동으로 태그를 지정하는 것은 사실상 불가능하다.

이런 점에서 머신 러닝 기반 자동화는 점점 더 중요한 역할을 담당할 것이다. 방법은 다음과 같다.
① 머신 러닝 알고리즘은 메타데이터의 오류나 불일치를 식별하고 수정하여 전반적인 품질을 향상시키는 데 도움이 될 수 있다.
② 머신 러닝은 데이터에 자동으로 태그를 지정하고 분류하여 검색, 유용성 및 관리 효율성을 향상시키는 데 도움이 될 수 있다.
③ 풍부한 메타데이터는 고객 서비스 상호 작용에 대한 감정 분석, 일반적인 질병의 새로운 원인 발견 등 AI를 통해 비즈니스 통찰력을 얻을 수 있는 새로운 가능성을 제공한다.
④ 머신 러닝은 규정에 따라 보호 또는 저장되지 않은 데이터를 식별하거나 기업 정책을 위반할 수 있는 데이터 액세스 패턴을 분석하여 규정 준수를 향상시킬 수 있다.
⑤ 메타데이터 관리 시 수동 작업 감소와 오류 감소로 효율성과 비용이 절감된다.
⑥ 더 나은 정보에 입각한 결정을 내리거나 새로운 수익원을 창출하기 위해 전반적인 데이터 활용을 향상시켜 경쟁 우위를 확보할 수 있다. 기업 데이터의 대부분은 어떤 목적으로도 활용되지 않고 스토리지 사일로에 숨겨져 값비싼 스토리지 용량을 소비한다. 메타데이터는 데이터 품질을 향상시키고 새로운 용도로 데이터를 더 쉽게 검색할 수 있도록 해준다.
데이터가 어디에 있든 해당 정보를 제공할 수 있는 데이터 관리 시스템을 사용하면 메타데이터를 강화하는 것이 훨씬 더 효과적이다. 이렇게 하면 추가 컨텍스트가 필요할 때마다 AI/ML 알고리즘을 반복적으로 실행할 필요가 없다.
강화된 메타데이터는 데이터가 존재하는 한 계속 유지된다. 스토리지에 구애 받지 않는 데이터 관리 시스템은 데이터가 한 스토리지 시스템에서 다른 스토리지 시스템으로 이동할 때 이 메타데이터의 인덱스를 유지할 수 있으며 이 향상된 메타데이터를 기반으로 올바른 데이터를 검색, 선별 및 추출하는 간단한 방법을 제공한다.
업계 사례
업종을 지정하면 메타데이터 확대가 어떻게 강력한 이점을 제공할 수 있는지 자동차 부문을 살펴보자. 전기 및 자율주행 자동차는 대량의 센서 데이터를 수집하여 자동차가 즉각적으로 조정 및 조치를 취하거나 운전자에게 경고를 보내는 데 도움이 된다. 이 데이터의 분석은 제품 개선 및 고객 행동 분석을 위한 제조업체의 황금률이다.
자동차 제조업체는 구조화되지 않은 데이터 관리 시스템을 사용하여 다음과 같은 워크플로를 만들 수 있다.
① 특정 차량 모델의 급정거와 관련된 충돌 테스트 데이터를 찾아본다.
② AI 도구를 사용하여 테스트 데이터를 식별하고 "이유 = 급정지"로 태그 지정
③ 관련 데이터만 클라우드 서비스로 이동하여 분석
④ 관련 없는 데이터를 삭제하거나 다른 클라우드 서비스로 이동하여 보관하라
⑤ 프로세스는 필요에 따라 지속적으로 실행한다.

다른 예는 다음과 같다.
① 고객 지원 개선
기계 학습 프로그램을 사용하여 콜센터 녹음에 대한 감정 분석을 실행하는 기술 회사를 생각해 보십시오. 고객 만족도 점수 등의 결과는 태그와 함께 각 오디오 파일에 녹음된다. 이제 직원들은 교육을 위한 관련 오디오 녹음을 찾을 수 있으며 관리자는 모범 사례를 개선할 수 있다.
② 의료 영상 검색
병원은 MRI, X-ray, CAT 스캔과 같은 의료 영상에 기계 학습을 적용한 다음 이미지에 진단 코드를 태그할 수 있다. 그런 다음 연구원은 진단을 통해 이미지를 찾아 프로젝트를 지원할 수 있다.
③ PII 탐지 및 보호
HR 파일, 환자 데이터, 재무 정보 등의 개인 데이터는 기업에서 관리하는 수십억 개의 파일 중 일부에 존재할 수 있다. 지속적으로 찾아서 격리하는 쉬운 방법은 없다. 그러나 Amazon Macie와 같은 기계 학습 프로그램이 PII에 대한 데이터 세트를 분석할 수 있고 데이터 관리 시스템이 "PII"로 태그를 지정하여 이를 안전하고 변경 불가능한 스토리지로 전송(또는 가능한 경우 삭제)할 수 있다면 충분한 시간을 절약하고 비용을 절감할 수 있다. 위반 및 벌금의 위험이 있다.
④ 이미지 검색
한 대학의 마케팅 리더는 다양한 캠페인에 대한 이미지를 찾고 콘텐츠 라이브러리에서 부적절할 수 있는 이미지를 삭제하려고 한다. 부서에서는 이미지를 분석하고 관련 식별자로 태그를 지정하는 이미지 AI 프로그램을 사용하여 나중에 다른 프로젝트에 필요할 때 쉽게 검색할 수 있다. 새로운 메타데이터 태그는 데이터 관리 시스템에 저장되며 파일이 새로운 스토리지로 이동하더라도 파일을 따라간다. 실험실 이미지의 유전체학 처리에도 동일한 프로세스가 적용될 수 있다.
⑤ 감시/법 집행
소셜 미디어 게시물, 문자 메시지와 함께 바디캠, 대시캠 동영상 등의 비정형 데이터는 범죄 수사를 위한 중요한 증거이다. 사건이 진행되는 동안 해당 파일은 활발하게 사용되지만 일단 사건이 종결되면 사건이 다시 열리거나 범죄 예방, 교육, 범죄 예방 등 새로운 목적으로 분석해야 하는 경우 나중에 찾기 어려울 수 있다. 또는 안전성을 향상시키기 위한 연구 프로젝트에 사용된다. AI는 파일을 분석하고 필요에 따라 태그를 지정하여 향후 이니셔티브를 지원할 수 있다.
⑥ 메타데이터를 통한 저작권 보호
생성 AI의 가장 중요한 주제는 예술 작품, 이미지, 서적과 같은 저작권이 있는 자료가 ChatGPT와 같은 프로그램의 훈련 모델에 포함된다는 것이다. 이 문제를 계기로 소송이 늘어나는 추세다. 가능한 해결책 중 하나는 Digimarc와 같은 도구를 사용하는 것이다. 이를 통해 저작권 소유자는 디지털 워터마크 형태의 메타데이터를 자신의 작품에 적용할 수 있으며 AI 모델은 이를 수집하기 전에 감지할 수 있다.
기술적 고려사항
메타데이터 증대 프로젝트는 금방 감당할 수 없게 될 수 있다. 새 태그를 너무 많이 생성하는 경우 사용자 액세스와 관련된 성능 문제를 방지하기 위해 태그를 적절하게 저장하고 관리해야 한다. 오늘날 메타데이터의 양과 다양성을 고려할 때 대부분의 IT 조직은 메타데이터 관리 자동화를 구현해야 한다.
쿼리와 태그를 조합하여 사용하는 소프트웨어를 사용하는 것이 가장 좋다. 쿼리는 "지난 6개월 동안 액세스된 이 부서 소유의 모든 데이터를 보여주세요."와 같은 일반적인 문의에 대한 결과를 제공한다. 사용자는 사용 가능한 메타데이터를 기반으로 사용자 지정 쿼리를 만들 수 있다. 태그는 이러한 쿼리를 저장하는 데 필요하지 않지만 기계 학습 또는 사용자 중심 입력을 사용하여 사용 가능한 메타데이터 정보를 향상시키는 데에만 사용된다. 이 쿼리와 태그 접근 방식은 효율성을 극대화하고 시간을 절약하며 태그 확산 문제를 제거한다.
메타데이터 확대를 선택적으로 선택하는 것도 현명한 방법이다. 기계 학습 도구 및 기타 시스템의 도움을 받더라도 강화를 위해 올바른 데이터를 선별하고, 결과의 정확성을 모니터링하고, 데이터가 오용되지 않도록 보호하고, 데이터 이해관계자와 협력하여 더 많은 메타데이터가 데이터에 제공되도록 하려면 시간과 리소스가 필요한다.
AI 프로젝트를 더 복잡하게 만들거나 허위 또는 부정확한 결과를 생성하는 대신 필요에 따라 IT 리더와 데이터 이해관계자는 시간을 투자하고 올바른 도구와 리소스를 사용하여 메타데이터를 이해하고 적절하게 활용해 더 강력하고 관련성이 높은 AI 및 빅 데이터 분석 프로그램을 위한 토대를 마련할 수 있다.
쿠마르 고스와미(Kumar Goswami)는 컴프라이즈(Komprise)의 CEO이자 공동 창립자이다. 20년 넘게 스타트업을 설립하고 성공적으로 종료한 경험을 보유한 기업가로 대기업의 경영 관리 경험도 있다.
(* 이 칼럼은 GTT KOREA의 편집 방향과 다를 수 있습니다.)
관련기사
- 인덱스 구축 시간 85% 단축, 빨라지는 생성AI 개발
- 부담은 줄이고, 성과는 높이는 정보 관리 시스템
- AI 시대, 기업에 필요한 고성능 데이터 레이크 구현 스토리지 ‘HCSF’
- 실시간 데이터 통합과 스트리밍이 가능한 플랫폼
- "생성AI 기반 데이터 거버넌스 애플리케이션을 써야 하는 이유"
- "데이터 레이크하우스와 결합된 생성AI로 기업용 AI 시장 정조준한다"
- 데이터 파이프라인 관리 최적화하는 '데이터 옵저버빌리티'
- 멀티클라우드 환경 위한 자율운영 데이터 웨어하우스, '오라클 ADW'
- 적은 데이터로 고성능 데이터 모델을 구축할 수 있을까?
- 정확성과 빠른 속도로 의료 전문가 돕는 AI
- [기고] 의사결정에 최적화된 데이터 옵저버빌리티 도구 선택법
- 언어의 뉘앙스까지 번역하는 AI 기반 이메일·메시지 작성 도우미, 신통하네!
- '광고비 낭비하는 사이트' 찾아내는 솔루션
- 모니터링 핵심 기능, 정확한 ‘경고’
- [기고] 치솟는 자동차 비용, 신기술로도 못 막는 이유
- 자동차용 3D 디스플레이 대중화는 언제일까?
- 효과 높은 HR 프로그램 선택법
- [기고] 데이터 아키텍처를 혁신해야 할 때
- [기고] 데이터 무결성 지름길, 데이터 품질 향상법
- 고급 위협 탐지 기술 적용한 신원 보호 서비스 'IDP'
- [기고] 기업에 필요한 데이터 과학자
- HR 업무 자동화로 가속 성장하는 '인적 자본 관리' 2031년 513억 달러 전망
- 금융의 미래 'AI와 머신러닝'
- '제조 산업의 AI' 연평균 47.8% 놀라운 성장
- 재무적 환각 해결하는 LLM 벤치마크
- [2024년 전망] HDD의 건재, AI·하이브리드 클라우드·랜섬웨어 탐지가 뒷받침
- 재무 리더, AI 수용해야 하지만 인재 부족이 문제
- 개발 생산성·품질·고객 만족도 높이는 '테스트 데이터 관리' 플랫폼
- [기고] 데이터의 가치를 높이는 ‘데이터 제품’
- 스타트업 기업가를 위한 사업 계획 도구
- CFO처럼 기업 성장 포인트를 콕 집어주는 솔루션
- [기고] 기업과 조직을 위한 '데이터 활용 능력' 9대 트렌드
- [기고] LLM 교육 자료의 저작권이 유지될까?
- 스냅태그-키코시스템즈, 일본 보안 시장 공략 협력
- AI 개발에 정확성·속도 높이는 'RAG & 에이전트 분석 솔루션'
- 아웃바운드 커뮤니케이션 처리하는 AI 기반 고객 지원 솔루션
- 스냅태그, 랩가드 홈페이지 론칭
- 비즈니스 문자 메시지는 이제 ‘업무용 전화번호로’
- AI 기반 은행의 개인정보보호와 복잡성 해결 전략
