가트너는 지식 그래프를 기업, 사람, 사물 간의 관계를 보여주고 지역과 산업을 넘나들며 원활하고 동적인 연결을 가능케 하는 디지털 생태계로 가는 새로운 트렌드의 일부라고 정의했다.

테마틱스 파트너스(Thematix Partners)의 파트너인 엘리사 켄달(Elisa Kendall)과 맥기니스 어소시에이츠 컨설팅(McGuinness Associates Consulting)의 CEO이자 렌셀러 폴리테크닉(Rensselaer Polytechnic) 연구소의 컴퓨터 및 인지 과학 교수인 데보라 맥기니스(Deborah McGuinness)는 지식 그래프 사용이 확대되는 이유와 사용 사례를 공유했다.

지식 그래프의 기원

켄달에 따르면 ‘지식 그래프’라는 용어 자체는 비교적 최근에 생겼지만, 그 기반 기술은 수십 년 전부터 있었다. 지식처리응용연구소의 리사 에를링거(Lisa Ehrlinger)와 볼프람 뵈스 (Wolfram Woess)에 따르면 ‘지식 그래프’라는 용어는 1980년대 네덜란드 흐로닝언대학교와 트벤테대학교의 연구원들이 다양한 출처의 지식을 통합하여 자연어를 표현하는 시스템을 공식적으로 설명하면서 생겨났다.

이 용어는 2012년 구글이 문자열이 아닌 실제 세계의 객체를 검색하는 과정을 설명하면서 보편적으로 사용되기 시작했다. 야후, 빙 등 다른 기업들도 이를 따랐고, 오늘날 검색 엔진에서도 사용되고 있다.

검색 엔진은 클릭스트림 전반에서 사용자 정보를 수집한 후 지식 그래프에 인코딩하여 더 나은 상황별 답변을 제공할 수 있다. 완벽한 일치는 아니지만 메타데이터, 센서 데이터, 동영상, 위치 정보, 유사한 사용자에 대한 수집 분석 등으로 보완되면 관련성이 크게 높아진다.

지식 그래프, 데이터베이스, 온톨로지

켄달은 지식 그래프 사용과 관련된 세 가지 주요 용어를 소개했다.

온톨로지는 관심 영역이나 담론의 개념 모델로 다음과 같은 기능이 있다.

⦁도메인에 필수적인 기본 개념 표현

⦁일반적으로 실제 데이터 요소나 인스턴스가 아닌 정의와 관계 포함

⦁명확한 정의를 포함한 공통 표준 용어에 대한 질의 가능한 로컬 액세스를 사용자에게 제공

지식 베이스는 개체, 사실, 그리고 그들 간의 관계 규칙(지식 그래프)을 나타내는 메타데이터의 지속적인 저장소이다. 온톨로지는 포함되거나 별도로 유지될 수 있다.

지식 그래프는 협력자, 임시로 캡처된 지식, 워크플로우를 연결하며, 다음과 같은 기능이 있다.

⦁소스 데이터 세트, 분석 워크플로우 코드, 결과, 출판물의 저장소 통합 제공

⦁지식 강화 검색 기능 활성화

온톨로지

데이터 과학과 기계 학습을 사용하여 온톨로지에 필요한 요소를 추출하는 것은 가능하지만, 켄달에 따르면 오늘날의 대규모 데이터 저장소에서는 그렇게 단순하지 않다.

“건초 더미에서 바늘을 찾거나 실제로 훈련 세트를 재사용하거나 조직 자체의 지식을 활용하려면, 먼저 일관성 있게 보이는 전역 또는 분산 그래프에 액세스할 수 있어야 한다.”

데이터 과학자들에게는 단일 소스처럼 보일 수 있지만, 실제로는 다중 프로토콜, 다양한 종류의 데이터베이스, 다른 어휘, 도메인 내에서 높은 수준으로 분산된 다른 가정을 사용한다고 켄달은 말했다.

사용 사례: 글로벌 공급망 과제

켄달이 일한 대형 제약 제조업체는 기계 학습을 활용해 원자재의 불만족스러운 허용 오차, 몬순으로 인한 배송 지연, 적시 제조 지연 등의 공급망 사고를 관리했다. 대부분의 데이터베이스는 구조화되어 있었지만 원자재, 날씨 또는 각 사고 원인을 설명하는 다른 코멘트를 자연어로 기록한 데이터베이스 필드도 있었다. 기계 알고리듬이 이러한 필드를 처리하는 방법을 배우지 못했기 때문에 켄달은 모든 화학 물질, 원자재, 공급업체, 제조 시설 프로세스를 포함한 온톨로지를 제공했다.

이후 이 회사는 일반적인 기계 학습과 자연어 처리(NLP) 표현에서 습득한 지식에 맞춤 온톨로지를 더하여 보고 품질을 높일 수 있었다. 켄달은 기존 표준 온톨로지에 통제된 어휘를 추가하고, 맞춤 작업에 대한 수요도 증가하고 있어 이러한 하이브리드 솔루션에 대한 수요가 늘고 있다고 말했다.

맞춤 온톨로지를 통해 대기업은 훨씬 더 풍부하고 관련성 높은 용어와 쿼리 세트를 사용하고, 보고, 규제 준수 또는 의사 결정 지원 애플리케이션을 위해 제품과 서비스를 더 정확하게 설명할 수 있다.

사용 사례: 참치 이야기

가장 단순한 형태에서 지식 그래프는 소비자와 제품 스토리를 연결할 수 있다. 켄달은 범블 비 튜나(Bumble Bee Tuna)가 고객에게 구매한 참치캔의 참치가 어획된 위치, 시기, 방법, 선박 이름, 가공 방법, 통조림 공장 위치 등의 정보를 제공하는 방식을 보여주었다.

범블 비의 ‘트레이스 마이 캐치(Trace My Catch)’ 웹사이트에서 참치, 연어 또는 기타 범블 비 제품 캔 밑면의 코드를 입력하면 해당 캔의 내용물에 대한 모든 정보가 표시된다. 켄달은 “이는 먹이 사슬에서 제품에 영향을 미친 것을 이해하기 위한 첫걸음에 불과하다.”라고 말했다. 식품 안전에 대한 함의는 상당한데, 그 중에서도 가장 큰 것은 오염물질이나 기타 식품 안전 위험 발생 시 신속한 구역 차단이 가능하다는 점이다.

사용 사례: 위기 이후 규제 준수

최근 몇 년간 전 세계 규제 기관들은 2008년 금융 위기를 초래한 문제를 해결하기 위한 조치를 시행했고, 금융기관들은 이를 준수하기 위해 고심해왔다. 켄달은 유럽연합 은행위원회가 정한 원칙의 적용을 받는 30개 은행 그룹을 예로 들었는데, 그중 2016년 요구사항을 충족시킨 곳은 5곳에 불과했다. 이후 연례 분석 결과, 은행들은 해당 기준을 충족시키지 못했을 뿐만 아니라 올해 발표된 보고서에 따르면 아예 노력조차 하지 않아 규제 준수에서 더욱 멀어진 것으로 나타났다고 켄달은 말했다.

“데이터 아키텍처, 데이터 거버넌스, 데이터 관리, 데이터 계보, 관련 IT 인프라 문제로 인해 이 법률에서 요구하는 원칙을 구현할 수 없었다.”

일반적인 문제점

켄달은 다수의 데이터 스토어와 데이터 웨어하우스를 보유한 기관의 분석가들이 직면한 규제 준수 과제를 설명했다. 필요한 정보를 획득하려면 자동화되지 않은 다수의 사람, 부서, 데이터 소스에 의존해야 한다. 데이터는 종종 여러 엑셀 스프레드시트에 입력되는데, 모든 잠재적인 실패지점은 누군가의 책상에 있다고 켄달은 지적했다.

문제는 데이터가 제대로 관리되지 않는 것뿐만 아니라, 분석가들조차 서로 의사소통을 제대로 할 수 없다는 데 있다. 한 사례에서 은행은 11개 시스템이 공통 용어를 각각 다르게 정의했기 때문에 전체 조직에 걸쳐 그 용어에 대한 11가지 다른 정의가 있었다.

켄달에 따르면 규제를 준수하기 위해 필요한 답변을 얻으려면 기업이 데이터 전략과 데이터 거버넌스에 대한 책임과 소유권을 가져야 하며, IT 부서와 데이터 품질 및 운영에 대한 공동 책임을 져야 한다.

지식 그래프는 비즈니스 아키텍처에서 파생된 용어를 사용하여 사일로를 연결하고 통합함으로써 더 유연한 환경과 신속한 답변을 제공하는 동시에 기존 기술을 그대로 유지할 수 있도록 도와준다. 동시에 글로벌 표준의 재사용과 각 소스의 개념 의미를 기반으로 한 데이터 소스 정렬을 가능케 한다고 켄달은 말했다.

사용 사례: 데이터를 의미에 매핑

지식 그래프가 데이터에서 의미로 연결하는 역할을 할 수 있음을 보여주기 위해 맥기니스는 자신이 만든 아동 건강 노출 분석 저장소(CHEAR) 지식 그래프의 사용 사례를 보여주었다. 이 프로그램의 목적은 유전적 소인과 아동기 환경 노출이 건강 결과에 미치는 영향을 연구하는 것이다.

NHANES(National Health and Nutrition Examination Survey)의 환자 데이터, 국립암연구소의 GDC(Genomic Data Commons)의 유전체 데이터, SEER(Surveillance, Epidemiology, and End Results) 프로그램의 데이터를 자연어 처리와 반자동 매핑을 사용하여 대규모 기존 건강 지식 상태와 결합했다. 그 결과 생물통계학자들은 여러 연구를 결합하여 더 큰 모집단 표본을 사용할 수 있게 되어 더 의미 있는 결론을 이끌어낼 수 있게 되었다.

자연어 처리와 자동화로 광범위한 사용 가능

그래프를 사용하여 지식을 표시하는 관행은 수십 년 전부터 있었지만, 맥기니스에 따르면 최근 자연어 처리 기술의 성숙으로 이제 훨씬 더 넓은 대중이 활용할 수 있게 되었다. 또한 기업들이 10년 전에 비해 지식 그래프를 훨씬 더 효과적으로 활용하고 있다고 말했다.

자동화 기술은 적절하게 결합되고 올바른 사용 사례에 활용된다면 확장 가능한 시스템을 구축하는 효율적인 방법을 제공할 수 있고, 지식 그래프를 통해 모든 요소가 어디에 맞는지 명확하게 알 수 있지만 “용어의 의미를 이해하는 것이 중요”하고 콘텐츠의 신뢰성을 아는 것도 중요하다.

대규모에서는 수동 큐레이션이 불가능하므로 자동 및 반자동 접근법에 의존해야 한다. “시간에 민감하고 매우 중요한 의사결정 상황에서 그 콘텐츠가 어디에 있는지, 그리고 언제 통합하는 것이 타당한지 이해하는 것이 중요하다.”

 

(* 이 칼럼은 GTT KOREA의 편집 방향과 다를 수 있습니다.)

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지