지식 그래프는 기업의 데이터 관리 요구 사항을 해결하기 위한 동적이며 확장 가능한 솔루션이다. 데이터, 메타데이터, 콘텐츠의 허브로서 다양한 시스템에 분산된 데이터에 대한 통합되고 일관되며 명확한 보기를 제공한다.

불과 10년 전만 해도 조직에서 관리해야 하는 데이터가 너무 다양하고 분산되어 있으며 그 규모가 가늠할 수 없을 만큼 컸다. 이로 인해 무의미하고 고립된 데이터와 콘텐츠가 복잡하게 얽혀 비즈니스 통찰력과 기회를 놓치는 경우가 많았다. 지식 그래프는 데이터 액세스 통합, 유연한 데이터 통합 제공, 데이터 관리 자동화를 통해 이러한 과제를 극복하는 데 도움이 된다.

더그 킴볼 / 온투텍스트(Ontotext) CMO
더그 킴볼 / 온투텍스트(Ontotext) CMO

지식 그래프 정의 및 시맨틱(온톨로지)의 중요성

위키피디아에 따르면 지식 그래프는 그래프 구조의 데이터 모델 또는 토폴로지를 사용하여 데이터를 표현하고 조작하는 지식 기반이다. 지식 그래프의 핵심은 지식 모델이다. 이는 개념, 개체, 관계 및 이벤트에 대한 상호 연결된 설명 모음이다.

공통 의미론적 설명을 생성함으로써 지식 그래프는 물리적 인프라나 데이터 형식에 의존하지 않는 더 높은 수준의 추상을 가능하게 한다. 이는 데이터 패브릭이라고도 하며 내부 및 외부 데이터에 액세스하고 통합하는 인간 친화적이며 의미 있는 방법을 제공한다. 의미론적 메타데이터를 사용하는 지식 그래프는 다양한 기업 데이터에 대한 일관된 보기를 제공하고 다양한 시스템과 이해관계자에 분산되어 있는 지식을 상호 연결한다.

자연어 처리(NLP)의 도움으로 텍스트 문서를 지식 그래프와 통합할 수도 있다. 머신러닝과 지식 그래프를 결합해 정교한 텍스트 분석 방법을 사용할 수 있으므로 NLP 파이프라인은 큰 이점을 제공한다. 지식 그래프는 의미론적 AI와 설명 가능한 AI 전략에도 필수적이다.

온톨로지는 지식 그래프의 형식적 의미의 중추를 나타낸다. 그래프의 데이터 스키마로서 데이터의 의미에 관해 지식 그래프 개발자와 사용자 간의 계약 역할을 한다. 온톨로지는 데이터와 그 의미에 대한 이해를 공유한다.

RDF의 지식 그래프

RDF(Resource Description Framework)는 월드 와이드 웹 컨소시엄(W3C)과 함께 개발 및 표준화된 웹 리소스와 데이터 교환을 기술하기 위한 표준이다. RDF 외에도 LPG(레이블 속성 그래프) 모델은 그래프 데이터 관리에 대한 간단한 소개를 제공한다. 데이터를 임시로 수집해야 하고 단일 프로젝트 과정에서 그래프 분석을 수행하며 나중에 그래프를 삭제해야 하는 경우 LPG가 개발자의 마음을 사로잡는 경우가 많다. 그러나 불행하게도 LPG 주변의 기술 스택에는 표준화된 스키마나 모델링 언어, 쿼리 언어가 부족하고 직렬화 형식, 연합 프로토콜 등 공식적인 의미 체계 및 상호 운용성 사양에 대한 조항이 없다.

RDF는 노드에 대해서만 진술을 허용하지만, RDF-스타(Star)를 사용하면 다른 진술에 대해 진술할 수 있으며 이러한 방식으로 메타데이터를 첨부하여 점수, 가중치, 시간적 측면, 출처와 같은 그래프의 에지를 설명할 수 있다.

그러나 모든 RDF 그래프가 지식 그래프는 아니다. 예를 들어, RDF에 표시된 국가의 GDP 데이터는 지식 그래프가 아니다. 데이터를 그래프로 표현하는 것이 유용한 경우가 많지만 데이터의 의미론적 지식을 포착하는 데는 불필요할 수도 있다.

지식 그래프를 만드는 것은 데이터를 표현하는 데 사용되는 언어가 아니라 연결과 그래프다. 지식 그래프의 주요 특징은 개체 설명이 서로 연결되어야 한다는 것이다. 한 엔터티의 정의에는 다른 엔터티가 포함된다.

지식 그래프는 소프트웨어도 아니다. 오히려 지식 그래프는 기준을 충족하고 특정 목적을 달성하기 위해 데이터와 메타데이터를 구성하고 수집하여 다른 소프트웨어에서 사용하는 방법이다. 하나의 지식 그래프 데이터는 여러 독립 시스템에서 다양한 목적으로 사용될 수 있다.

지식 그래프와 실시간 데이터 관리

데이터에 대한 요구로 인해 데이터 관리에 대한 기존 접근 방식이 한계를 넘어섰다. 날마다 더 많은 양의 데이터가 생성되며, 이 모든 데이터를 처리하고 이해하고 유용하게 만들어야 한다. 데이터의 가치는 전적으로 데이터 활용 능력에 달려 있다. 이에 따라 조직들이 개발 및 유지 관리 비용을 절감하고 데이터를 지능적으로 관리함으로써 얻을 수 있는 이점과 수익을 얻으려고 하고 있다. 오늘날의 데이터 생태계 역시 글로벌하다.

지식 그래프는 모든 조직을 포함하는 글로벌 데이터 생태계에 적합한 패러다임이기 때문에 다양성과 중앙 집중식 제어 부족을 처리할 수 있다. 정보와 그 정보에 대한 조직의 이해 및 요구 사항이 변경됨에 따라 지식 그래프도 변경된다. 지식 그래프로 표현되는 데이터는 인간과 기계 모두가 해석할 수 있는 엄격한 형식적 의미를 가지고 있다. 이는 인간이 사용할 수 있지만 자동화된 추론을 통해 컴퓨터가 부담을 어느 정도 완화할 수 있게 해준다는 의미다. 지식 그래프를 통해 조직은 스키마를 변경, 정리, 조정하면서 데이터를 동일하게 유지하고 재사용하여 더 많은 통찰력을 얻을 수 있다.

몇 년 전, 우리는 빅데이터라는 전문 용어에서 스마트 데이터로 옮겨갔다. 많은 양의 데이터로 인해 정보에 대한 우리의 복잡한 이해를 반영하는 데이터 모델이 필요했기 때문이다. 현실 세계와 그에 수반되는 복잡한 관계를 표현할 수 있는 데이터 저장소가 필요했다. 이 모든 작업은 인간의 전문 지식과 의사결정을 보완하고 촉진하는 자동화된 추론을 가능하게 하기 위해 형식적 시맨틱을 사용하여 기계가 읽을 수 있는 방식으로 수행되어야 했다.

RDF로 표현된 지식 그래프는 이뿐만 아니라 데이터와 정보 집약적인 서비스에 다양한 애플리케이션을 제공한다. 지능형 콘텐츠, 패키징, 재사용, 반응형 및 상황 인식 콘텐츠 추천, 자동화된 지식 발견, 의미 검색, 지능형 에이전트 등이 그 예다. 또한 기업의 프로파일링 및 순위 지정, 규제 문서의 정보 검색, 약물 감시 문헌 모니터링 같은 기능도 지원할 수 있다.

즉, 지식 그래프는 기업이 통합된 지식 모델과 사일로화된 소스 시스템에서 파생된 데이터를 기반으로 중요한 결정을 내리는 데 도움이 된다. 또한 보안 및 거버넌스, 소유권 관리, 출처 관리 등 데이터에 대한 효율적이고 구체적이며 대응적인 접근 방식을 가능하게 하는 기본 확장성과 시맨틱을 제공한다.

 

* 필자 더그 킴볼(Doug Kimball)은 기업 지식 그래프(EKG) 기술 및 시맨틱 데이터베이스 엔진 공급업체인 온투텍스트(Ontotext)의 CMO다.

(*이 칼럼은 GTT KOREA의 편집 방향과 다를 수 있습니다.)

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지