원-핫 및 TF-IDF에 대한 자세한 설명

텍스트 특징을 추출하는 가장 일반적인 방법인 One-hot과 TF-IDF는 이들의 주요 아이디어와 장점, 단점을 주로 소개합니다.

1.1 원-핫 인코딩

원-핫 인코딩은 원-핫 인코딩 및 원-비트 유효 인코딩이라고도 합니다. 이 방법은 N 비트 상태 레지스터를 사용하여 N 상태를 인코딩하는 것입니다. 각 상태에는 자체 독립 레지스터 비트가 있으며 언제든지 그 중 하나만 유효합니다. 예를 들어 세 개의 샘플(행)이 있고 각 샘플에 세 개의 기능(열)이 있다고 가정해 보겠습니다.

?위 표에서는 각 기능을 일반 숫자로 인코딩했습니다. 남성/여성과 같이 가능한 값입니다. 여기서 남성은 0으로 표시되고 여성은 1로 표시됩니다. 그렇다면 원-핫 인코딩은 어떻게 이루어지나요?

? feature_2를 예로 들어 보겠습니다. 여기서 feature_2에는 4개의 값(상태)이 있습니다. 이 기능을 나타내기 위해 4개의 상태 비트를 사용하여 각 샘플에서 단일 값만 보장합니다. 해당 기능의 상태는 1이고 나머지는 0입니다.

이는 2개 상태, 3개 상태 또는 더 많은 상태에 해당되므로 이러한 샘플 기능에 대한 새로운 표현을 얻을 수 있습니다.

원-핫 인코딩은 각각을 변환합니다. 상태 비트는 다음과 같습니다. 특징으로 취급됩니다. 따라서 우리는 그들의 특징 벡터를 다음과 같이 얻을 수 있습니다:

1.2 텍스트 특징 추출에 원-핫 적용

? 원-핫은 다음과 같은 Bag-of-Words 모델(bag)에 속합니다. 단어의 특징 추출). 다음 예제를 사용하여 원-핫을 사용하여 텍스트 특징 벡터를 추출하는 방법을 설명합니다. 우리 말뭉치에 세 개의 단락이 있다고 가정해 보세요:

나는 중국을 사랑합니다

엄마와 아빠는 나를 사랑합니다

엄마와 아빠는 중국을 사랑합니다

먼저 말뭉치를 분리하고 그 안에 있는 모든 단어를 얻은 다음 각각 번호를 매깁니다.

1 사랑 3 아빠; 5 중국; - 각 단락에 대한 특징 벡터를 핫 추출합니다:

따라서 최종 특징 벡터를 다음과 같이 얻습니다.

장점과 단점 분석:

장점:

단점:

sklearn은 하나의 핫 인코딩을 구현합니다.

참고: 인코딩할 데이터가 해당 열에 나타나지 않으면 오류가 발생합니다

? IF -IDF는 정보 검색(IR)에서 가장 일반적으로 사용되는 텍스트 표현 중 하나입니다. 알고리즘의 아이디어는 매우 간단합니다. 각 단어의 단어 빈도(TF)를 계산한 다음 여기에 가중치 매개변수(IDF)를 추가하는 것입니다. 예:

?이제 문서의 처음 10개 키워드를 계산하려고 한다고 가정해 보겠습니다. 어떻게 시작해야 할까요? 가장 먼저 생각나는 것은 문서에 있는 각 단어의 빈도(TF)를 계산하는 것입니다. 단어 빈도가 높을수록 해당 단어가 더 중요합니다. 그러나 계산해 보면 기본적으로 "of", "is" 및 "for"와 같은 실질적인 의미가 없는 단어(불용어)라는 것을 알 수 있습니다. 이 문제를 해결하는 방법은 무엇입니까? 이와 같은 "중지 단어"에 대해 가중치를 추가하는 것을 고려할 수 있습니다. 이 가중치는 IDF입니다.

공식을 살펴보겠습니다:

장단점 분석

장점: 간단하고 빠르며 결과가 더 현실적입니다.

단점: 단순히 단어만 고려하면 빈도, 단어와 단어 위치 정보 및 단어 간의 관계를 무시합니다.

sklearn은 tfidf를 구현합니다