단어 벡터의 작동 원리는 무엇입니까?

자연어를 기계 학습의 알고리즘에 넘기기 위해서는 보통 먼저 언어를 수학화해야 하는데, 단어 벡터는 언어의 단어를 수학화하는 한 방법이다. 단어 벡터를 사용하는 가장 쉬운 방법 중 하나는 one-hotrepresentation 입니다. 즉, 하나의 단어를 긴 벡터로 표현합니다. 벡터의 길이는 사전의 크기이고 벡터의 구성요소는 1 이고 다른 모든 위치는 0, 1 입니다. 하지만 이 단어는 두 가지 단점이 있음을 나타냅니다. 즉, 차원 재해에 취약하며, 특히 심도 있는 학습을 위한 일부 알고리즘에서는 더욱 그렇습니다. 어휘와 단어 사이의 유사성을 잘 묘사할 수 없다. (이 용어는' 어휘결원' 이라고 부르는 것 같다.) 또 다른 하나는 1986 에서 Hinton 이 먼저 제기한 분산 표현에 대해 언급했는데, one-hotrepresentation 의 단점을 극복할 수 있다. 그 기본 사상은 한 언어의 각 단어를 훈련을 통해 고정 길이의 짧은 벡터 (물론 여기서' 짧은' 은 one-hotrepresentation 에 상대적인' 긴') 로 매핑하고, 이 벡터를 모두 함께 넣어 단어 벡터 공간을 형성하는 것이다. 각 벡터는 이 공간의 한 점이다. 이 공간에' 거리' 를 도입하면 단어와 단어 사이의 거리를 근거로 단어와 단어의 차이를 판단할 수 있다.