첫 번째는 데이터를 먼저 처리하는 것이다. 인터넷의 데이터는 기본적으로 구조화, 비구조, 반구조화이다. 구조화된 데이터는 일반적으로 회사의 비즈니스 데이터입니다. 이 데이터는 데이터베이스에 저장되고 라이브러리에서 추출되며 간단한 사전 처리를 통해 사용할 수 있습니다. 반정형 데이터 및 구조화되지 않은 데이터 (예: 상품의 설명이나 제목) 는 텍스트, 그림, 구조화되지 않은 데이터일 수 있습니다. 그러나 지식지도의 일부 속성을 반영하는 정보를 저장합니다. 그래서 추출해야 합니다. 지식지도를 만드는 데 시간이 많이 걸리고 힘든 작업입니다.
데이터에서 추출해야 하는 것은 실제로 앞서 언급한 엔티티, 속성 및 관계입니다. 자연어 처리에서 엔티티 추출을 명명된 엔티티 인식이라고 합니다. 이곳의 관련 기술은 비교적 성숙하다. 전통적인 인공사전 규칙 방법에서 현재의 기계 학습 방법에 이르기까지 심도 있는 학습에도 몇 가지 용도가 있다. 예를 들어, 텍스트에서 엔티티 빌 게이츠와 엔티티 마이크로소프트를 추출한 다음 관계를 추출합니다. 빌 게이츠는 마이크로소프트의 설립자이며 이런 대응 관계가 있을 것이다. 그리고 속성 추출입니다. 예를 들어 빌 게이츠의 국적은 미국입니다. 이러한 추출이 완료되면 흩어진 정보가 있고, 추가하기 전에 구조화된 정보에서 얻은 것과 제 3 자 기술 자료에서 얻은 정보를 결합한다.
또한 물리적 정렬 및 물리적 모호성이 필요합니다.
솔리드 정렬 정보. 예를 들어 빌 게이츠는 중국어 이름이고 빌 게이츠는 그의 영어 이름이지만, 사실 이 두 단어는 같은 사람을 가리킨다. 텍스트가 다르기 때문에 처음에는 두 개의 엔티티였습니다. 이를 위해서는 우리가 그것을 정렬하고 통일해야 한다.
다른 하나는 실체 소멸이다. 예를 들어 사과는 일종의 과일이지만 일부 컨텍스트에서는 사과를 가리킬 수 있습니다. 이것은 물리적 모호성이며, 우리는 문맥에 따라 그것의 모호성을 제거해야 한다.
위 단계를 완료한 후 본체 추출이 이어집니다. 앞서 언급한 Microsoft 와 Apple 과 같은 그들의 실체는 모두 회사이다. 그들은 글에서 직접 발췌한 것이 아닐 수도 있고, 그들은 회사이다. 그런 다음 추출 할 몇 가지 방법이 필요합니다. 그런 다음 온톨로지 라이브러리를 만듭니다. 예를 들어, 회사는 기관입니다. 이 관계가 있습니다. 또래들에게도 지인으로 간주해야 한다. 예를 들어, 빌 게이츠와 잡스는 실체적 차원에서 비슷하다. 그들은 모두 인간의 실체에 속한다. 그들은 회사와 매우 다르기 때문에 유사성 계산이 필요하다.
위 단계가 완료되면 기술 자료의 품질을 평가해야 합니다. 이는 불가피한 수동 단계입니다. 품질 평가를 거쳐 결국 지식지도를 형성하였다. 지식지도가 형성된 후, 일부 관계는 직접 얻을 수 없을 수도 있으며, 이때 지식추리를 하여 지식지도를 확장할 수 있어야 한다. 예를 들어 고양이는 고양이다. 고양이는 포유동물이다. 고양이가 포유류라고 추측할 수 있다. 그러나 이 추론은 마음대로 유도할 수 없다. 예를 들어 빌 게이츠는 미국인입니다. 빌 게이츠는 회사를 설립했지만, 이 회사가 반드시 미국의 것은 아니다.