어휘 관련성을 계산하는 두 가지 방법, 즉 사전 기반 방법과 코퍼스 기반 방법을 구현합니다.
Mturk-77 1 (공개) 기반 실험 및 분석: _ 유사성 (C 1, C2, 브라운 _ IC) #1
Lin_similarity(c 1, C2, semcor _ IC) # 2 * log p (LCS (c1,C2
특별 대우:
1 여기서 lin_similarity, wup_similarity 및 path_similarity 의 결과가 사이에 있으므로 결과 ×5 를 처리합니다.
2, 한 단어는 여러 가지 의미를 지니며, 두 단어가 두 단어 사이의 의미를 비교해야 한다고 판단한다. 두 단어의 유사성을 어떻게 판단합니까? 나는 최대값과 평균을 모두 사용했는데, 평균이 얻은 결과가 매우 작을 것이라는 것을 알았다. 나는 이 두 단어 사이에 더 많은 관련이 없는 의미가 있을 수 있다고 추측하여 결과에 영향을 끼쳤기 때문에 결국 최대값을 선택했다.
3.lch_similarity 가 얻은 값은 모두 크지 않아서 마지막에 ×5 로 정규화한다.
Res _ similarity (c 1, C2, 브라운 _ IC) jcn _ similarity (c 1, C2, 브라운 46636.6868666667
나머지 점수는 정규화되고 ×5 가 된다.
5 시:
사전 훈련된 단어 벡터가 비교적 크기 때문에 여기서는 gensim 의 word2vec 모델을 사용하여 자체 훈련을 합니다. 교육 자료는 text8 로 약 100M m 입니다.
최종 결과는 다음과 같습니다. score 는 실제 점수 분포이고 w2v 는 word2vec 의 실제 점수 분포입니다.
결과 평균 제곱 오차는 분석에 사용됩니다.
그림에서 볼 수 있듯이 word2vec 방법과 RES 알고리즘의 결과는 모두 좋다. 예측 결과의 분포는 두 방법의 분포가 실제 결과와 비슷하다는 것을 보여준다.
관찰 과정에서 path 와 다른 방법의 유사성이 1 (또는 5) 정도인 것으로 나타났습니다. 여기서 최대값을 취하고 있기 때문입니다. 두 단어, 계정, explanation 은 의미가 동일하기 때문에 여기서 유사성이 가장 큰 것으로 간주됩니다. 그러나 실생활에서는 두 단어의 의미가 비슷한지, 의미가 일치하는 정도뿐 아니라 두 단어의 상용적 의미가 비슷한지 등을 고려해야 한다. 예를 들어 두 단어는 비슷한 상용의를 가지고 있고, 두 단어는 비슷한 희귀의를 가지고 있다. 양자의 의미는 비슷하지만 전자가 단어의 유사성을 더 잘 나타내는 것이 분명하다.
따라서 평균과 최대값을 취해도 두 단어의 유사성을 잘 묘사할 수 없을 가능성이 있다. 코퍼스의 방법은 단어의 상용의와 희귀의의 정보를 얻을 수 있다. 여기 word2vec 의 훈련 어재는 제한되어 있어서 결과가 정확하지 않을 수도 있습니다. 나는 인터넷에 미리 훈련된 단어 벡터가 많이 있다면 더 좋은 효과가 있을 것이라고 믿는다.