단어 가방 모델 (뉴스 텍스트 분류)

우리는 단어 가방 모델을 사용하여 텍스트를 분류해야 한다. 교육 모델은 크게 두 단계로 나눌 수 있습니다. 먼저 TF-IDF 를 사용하여 텍스트 피쳐를 표현합니다. 두 번째 단계에서는 교육을 위해 TF-IDF 값과 레이블 값을 분류 모델에 보냅니다.

"TF-IDF value" = "TF value" "IDF value" (실제로 TF 값을 정규화하여 긴 텍스트에 편향되지 않도록 합니다. ) 을 참조하십시오

TF 값: 한 단어 (단어) 가 텍스트 (단락) 에 나타나는 빈도입니다.

IDF 값: 텍스트 (단락) 에서 단어 (단어) 의 보편적인 중요성을 측정합니다. 한 단어 (단어) 의 IDF 값은 총 텍스트 수를 해당 단어 (단어) 를 포함하는 텍스트 수로 나눈 다음 결과 몫은 10 을 기준으로 한 로그입니다.

-응? 먼저 데이터를 보세요. 이 데이터 세트는 "채널" 과 "문장" 열로 나누어진 교육 데이터 세트입니다. 나중에 이 데이터 세트는 모델 교육에 사용됩니다.

글 속에는 쓸데없는 단어와 문장 부호가 많기 때문에, 말을 멈추고 싶다.

매개변수 해석:

Tokenizer = jieba.lcut? 스트리트 파이터 분사의 정확한 패턴: Stop_words 는 비활성화 단어 사전을 정의하여 결과에 포함된 단어를 제거합니다. 노엄? L2 표준을 사용하여 TF-IDF 행렬의 각 행을 정규화한다는 의미입니다. _idf 를 사용하시겠습니까? TF 매트릭스에 기초하여 IDF 를 계산하고 곱하면 TF-IDF; 를 얻는다는 뜻입니다. 을 눌러 섹션을 인쇄할 수도 있습니다 유창함 _idf? 문서 빈도에 1 부드러운 IDF 가중치를 추가하여 문서를 하나 더 추가하여 0 으로 나누어지지 않도록 하는 것을 의미합니다 (IDF 를 계산할 때 0 으로 나누어지는 어색함을 방지함). Sublinear_tf? 원래 TF 대신 1+log(tf) 를 사용하고, 값 TF, True 는 사용을 의미합니다.

Contents 매개 변수는 TF-IDF 값으로 계산할 텍스트 데이터 세트 (문장 열의 데이터) 입니다

그 결과 TF-IDF 값:

우리는 이 단어 가방에 얼마나 많은 단어가 들어 있는지 볼 수 있습니다.

TF-IDF 모델을 얻은 후에도 채널 열을 처리해야 합니다. 채널 섹션은 실제로 엔터테인먼트, 스포츠, 음악 등을 포함한 라벨 가치입니다.

채널의 열을 인코딩하여 태그 값 y 를 얻은 다음 방금 훈련한 tfidf 모델을 사용하여 x 값을 계산합니다.

여기서 우리는 훈련 세트와 테스트 세트를 나눌 때 X 와 Y 를 직접 사용하지 않는다. 이때 데이터 양이 너무 많아 분할 시간이 길어지기 때문에 지표를 나누어 교육 세트와 테스트 세트를 얻을 가치가 있다.

다음은 논리적 회귀 모델입니다.

교육이 끝나면 모델 효과를 평가해 보겠습니다.

마지막으로 모델을 저장합니다.

저장된 모델 로드:

실제 범주와 비교:

위의 전체 프로세스는 뉴스 텍스트 분류를 위해 단어 가방 모델을 사용하여 TF-IDF 값을 계산한 다음 예측을 위해 분류 모델로 보내는 간단한 프로세스입니다.