본문 바로가기
Knowledge Graph

[논문 리뷰] Domain-specific Knowledge Graphs: A survey

by Chaewon Park 2024. 8. 21.

 

 본 논문은 2020년에 발표되었으며 Domain-specific Knowledge Graph에 대한 Survey 및 명확한 정의를 하는 논문이다.


 

1. Introduction

 

 지식 그래프(Knowledge Graph: KG) 다음 세대 기술을 주도하는 주요 트렌드 중 하나로, 이제 새로운 형태의 지식 표현 방식이 되었으며, 여러 분야에서 응용할 수 있는 발판이 되었다. KG의 관심이 높아지는 이유는 다음과 같다.

  • 도메인 개념화와 데이터 관리를 효과적으로 할 수 있는 추상적인 구조
  • 여러 인공지능 응용 프로그램의 주요 동력으로 활용 가능
  • 의미적으로 상호 관련된 관계들을 통합적으로 표현

 지식 그래프의 도입은 도메인 온톨로지가 묘사하는 기존 데이터 모델을 확장시켰고, 의미적으로 상호 연관된 대규모 데이터 세트를 포착할 수 있는 새로운 형태의 데이터 분석을 확립시켰다.

 

현재 대부분의 지식 그래프는 특정 도메인에 특화되어 있고 특정 온톨로지를 기반으로 사용하고 있다. 하지만 도메인 특정 지식 그래프에 대한 지식이 늘어나면서 일관성 없는 데이터 소스에 대한 적절한 평가 기준이 적용되었는지에 대한 우려와 시간이 지남에 따라 변하는 지식의 동적인 특징을 반영하는지에 대한 의문을 제기한다. 따라서 이런 문제들을 해결하기 위해 도메인 특정 지식 그래프 구축에 대한 최신 접근법을 포괄적으로 검토하는 것이 중요하다.

 

 이 논문에서는 도메인 특정 지식 그래프에 대한 포괄적인 정의와 7개의 특정 분야에서 주목할만한 다양한 지식 그래프 구축 접근법을 논의한다. 이러한 접근법들을 검토하고 각 도메인별 요약을 제공하여, 각 사례에서 지식 그래프가 어떻게 구축되었는지, 지식 그래프를 구축하는 데 사용된 자원, 지식 그래프 임베딩 기법이 사용되었는지 여부, 지식 그래프 구축 접근법을 평가하는 데 사용된 측정 기준, 그리고 각 접근법의 한계와 단점을 제시합니다.

 

 

2. Methodology

 

 7개의 특정 도메인을 헬스케어, 교육, 정보통신기술(ICT), 과학 및 공학, 금융, 사회 및 정치, 그리고 여행으로 선정했다. Google Scholar에서 "knowledge graph for engineering", "knowledge graph for healthcare" 등과 같은 키워드를 사용해 관련 논문들을 검색했다.

 

 2016년부터 2020년 사이에 발표된 컴퓨터 과학 및 정보 시스템 분야의 연구 논문 140편 이상을 조사했다. Figure 1은 리뷰를 위해 수집된 논문을 나타내고 도메인 특정 지식 그래프에 대한 관심이 최근 몇 년 동안 급격히 증가하고 있는 것을 볼 수 있다.

 

 이번 연구는 'Domain-specific Knowledge Graph'라는 용어에 대한 포괄적인 정의를 제공하고, 다양한 도메인 기반 지식 그래프 구축 접근법에 대한 분석을 하고 현재 접근법의 한계를 드러내어 해결책을 제안한다.

 

 

3. Preliminaries

3.1 Generic Knowledge Graph

 

 지식 그래프는 Semantic Web의 발명 이후로, 일반적인 지식 그래프는 엔티티 간의 상호 연결된 형태인 링크드 데이터(Linked Data)와 관련이 있다.

 

 지식 그래프는 일반적으로 방향 그래프(𝐺)로 설명되고, 그래프의 정점 (𝑉)와 정점들 간의 관계를 표현한 엣지(𝐸)의 관계를 표현한 𝐺 = (𝑉,𝐸)로 표현할 수 있다. 정점은 엔티티의 집합, 엣지는 이러한 엔티티 간의 관계를 나타낸다. 일반적으로 RDF 트리플(Subject, Predicate, Object) 또는 (head, relation, tail)로  표현되며 < ℎ, 𝑟, 𝑡 > 로 기호화된다. Figure 2는 엔티티와 관계를 기준으로 지식 그래프를 표현한 예를 보여준다.

 

 이 지식 그래프에서는 여러 사실을 추론할 수 있다. "Tim Berners-Lee has invented WWW"는 두 개의 엔티티/노드, 즉 "Tim Berners-Lee"와 "WWW"로 나타낼 수 있고 관계인 "has invented"로, 트리플 "Tim Berners-Lee, hasInvented, WWW"로 나타낼 수 있다.

 

지속적으로 발전하는 오픈월드 지식 그래프의 예로는 BabelNet, YAGO, Cyc, NELL, CliGraph, 그리고 DBPedia 지식베이스가 있다. 실제로, 이러한 대규모 공개 데이터는 웹에서 수집되어 추천 시스템, 지능형 질의 응답 시스템 등 여러 인공지능 및 스마트 시스템의 주요 지식 출처로 활용되고 있다.

 

 

3.2 Domain-specific Knowlege Graph

 

 도메인 특정 지식 그래프는 특정 도메인의 문제를 해결하기 위한 지식 그래프 구축이 매우 중요하다. 특정 도메인 문제와 관련이 깊고 의미적으로 상호 연결된 활용이 깊기 때문이다. 또한, 도메인 특정 지식 그래프에 대한 정확한 정의가 부족하다. 이 논문에서 도메인 특정 지식 그래프를 다음과 같이 정의한다.

Domain Knowledge Graph is an explicit conceptualisation to a high-level subject-matter domain and its specific subdomains represented in terms of semantically interrelated entities and relations

 

1) Formal Conceptualisation

2) Subject-Matter Domain

3) Semantically Interrelated Entities and Relations

 

 저자가 조금 어렵게 말한 감이 없지 않아 있어서 좀 더 쉽게 풀어보자면, Domain KG는 상위 레벨의 특정 영역과 의미적으로 상호 연관된 서브 도메인을 명시적으로 개념화한 것이라는걸 말하고 싶어했던 것 같다.

 

 

3.3 Knowledge Graph Construction

 

 지식 그래프는 다양한 형태의 비정형 텍스트(예: 웹 데이터)와 기타 구조화된 또는 반구조화된 소스의 지속적인 전파를 처리하는 효율적이고 스마트한 접근법으로 도입되었다. Figure 3은 지식 그래프를 구축하기 위한 분류 체계를 보여준다. 분류 기준으로는 'the level of knowledge extraction', 'the type of knowledge base', 그리고 'the incorporated construction method'이다.

 

 1) Aspect of Knowledge Extraction: 지식 추출 측면

 지식 그래프 구축은 엔티티와 이들 간의 관계를 추출하는 과정이다.엔티티 추출은 3가지 주요 작업으로 구성된다.

  • Named Entity Recognition: NER
     개인, 조직, 위치, 사건 등과 같은 엔티티를 (비)정형 데이터에서 찾는다.
  • Named Entity Disambiguation: NED
     추론된 엔티티의 모호성을 제거하고 실제 세계의 사실적인 엔티티에 매핑하는 것을 목표로 한다.
  • Named Entity Linking: NEL
     구분된 엔티티에 고유한 IRI(국제화된 리소스 식별자)를 할당하는 과정이다.

 관계 추출의 목적은 식별되고 구분된 엔티티들 간의 의미적 관계를 발견하는 것이다. 

 

2) Aspect of Knowledge Base

 지식 그래프 구축은 스키마를 사용하는지 여부에 따라 schema-based, schema-free, 이 둘을 합친 hybrid로 달라진다. 

  • Schema-based
    데이터 소스와 온톨로지의 선택에 따라 두가지 그룹으로 분류할 수 있다.
    • Bottom-Up 방법
      온톨로지의 구조적 특성을 활용하여 지식 그래프를 구축한다. 예를 들어, Wekipedia는 사전 정의된 온톨로지 모델인 DBpedia를 사용하여 구축한다.
    • Top-Down 방법
      구조화된 데이터에서 온톨로지 스키마를 유추하거나 웹의 정보를 바탕으로 계층적 분류(계층)를 구축한다. 예를 들어, YAGO는 웹에서 얻은 정보를 바탕으로 온톨로지를 추론하거나 분류 체계를 구축한다.

 

계속해서 내용을 추가하도록 하겠다 ...