많은 경우 단어 간의 유사성을 직접 계산하는 것은 매우 어렵다. 일반적으로 단어 사이의 거리를 먼저 계산한 다음 유사성으로 변환합니다.
의미 사이의 거리를 계산하는 데는 일반적으로 두 가지 방법이 있습니다. 하나는 대량의 코퍼스를 통해 통계를 수행하는 것이고, 다른 하나는 어떤 본체나 분류 관계를 기반으로 하는 것입니다.
대규모 코퍼스를 사용하여 통계를 수행하는 이 통계 기반 방법은 주로 문맥 정보의 확률 분포를 어휘 의미 유사성의 참조 기준으로 사용합니다. 통계에 기반한 단어 의미 유사성 계산 방법은 단어 유사성 연구를 관찰 가능한 언어로 구축하는 경험적 방법이다. 그것은 두 단어가 비슷한 맥락에 있을 때만 의미가 비슷하다는 가정을 바탕으로 한다. 대규모 코퍼스를 사용하여 단어의 컨텍스트 정보를 의미 유사성 계산에 대한 참조로 사용합니다. 통계에 기반한 정량 분석 방법은 단어와 단어 사이의 의미 유사성을 정확하고 효과적으로 측정할 수 있지만, 이 방법은 훈련에 사용되는 코퍼스에 의존하며 계산량이 많고 계산 방법이 복잡하다. 또한 데이터 희소성과 데이터 소음으로 인해 간섭이 심하며 경우에 따라 뚜렷한 오차가 발생할 수 있습니다.
일반적으로 동의어 사전을 사용하여 본체나 분류 관계에 따라 단어의 의미 거리를 계산합니다. 일반적으로 동의어 사전은 모든 단어를 트리 계층으로 구성합니다. 트리 그래프에서 노드 사이에는 경로가 하나뿐이므로 이 경로의 길이는 두 개념 사이의 의미 거리를 측정하는 데 사용될 수 있습니다. 일부 연구자들은 상황이 더 복잡하다고 생각한다. 노드의 경로 길이 외에 다른 요소도 고려됩니다. 개념 계층 트리의 깊이, 개념 계층 트리의 영역 밀도 등을 예로 들 수 있습니다. 본체나 분류 관계에 기반한 계산 방법은 간단하고 효과적이며, 코퍼스 훈련이 필요 없고 직관적이며 이해하기 쉽다. 그러나 이런 방법으로 얻은 결과는 주관적인 의식에 크게 영향을 받아 때로는 객관적인 사실을 정확하게 반영하지 못할 때가 있다.
둘째, WordNet 기반 의미 유사성 알고리즘 연구.
-응? WordNet 의 개념은 개념 간의 관계를 통해 연결되고, 각 개념은 관계를 통해 다른 개념과 연결되며, 전체 WordNet 은 개념과 관계로 구성된 거대한 네트워크입니다. 위 그림은 WordNet 의 일부 개념에 대한 네트워크 맵입니다.
-응? 다음 그림은' 차' 와' 패키지' 를 주체로 하는 개념으로 is_a 관계의 트리 분류도를 산출한 것이다.