단어 빈도 통계의 의미

단어빈도 통계의 의의: 단어빈도 통계는 기사에 특정 분야가 등장하는 횟수를 세어 기사의 요점과 키워드를 파악하고 이해를 돕기 위해 사용됩니다. 작가의 아이디어 중.

단어의 중요도는 해당 단어가 문서에 등장하는 횟수에 비례하여 증가하지만, 말뭉치에서 해당 단어가 등장하는 빈도에 비례하여 감소합니다. 다양한 형태의 TF-DF 가중치는 일반적으로 검색 엔진에서 사용자 쿼리에 대한 문서의 관련성을 측정하거나 순위를 매기는 데 사용됩니다. 유감스럽게도 텍스트 소프트웨어는 당신이 생각하는 것만큼 똑똑하지 않고 키워드를 독립적으로 분석할 수 있습니다. 더 자주 나타나는 단어만 추출할 수 있습니다.

용어 빈도 통계의 원리: 특정 문서에서 용어 빈도(term빈도, .TF)는 해당 단어가 문서에 나타나는 횟수를 나타냅니다. 이 숫자는 일반적으로 긴 파일에 편향되는 것을 방지하기 위해 정규화됩니다. (단어의 중요 여부에 관계없이 동일한 단어는 짧은 문서보다 긴 문서에서 단어 빈도가 더 높을 수 있습니다.)

역 문서 빈도(IDF)는 보편적인 문서 빈도의 척도입니다. 말의 중요성. 특정 단어의 IDF는 전체 문서 수를 해당 단어가 포함된 문서 수로 나누고 그 몫에 로그를 취하면 얻을 수 있습니다.

문서의 총 단어 수가 100이고 "cow"라는 단어가 3번 나타나면 문서에서 "cow"라는 단어의 단어 빈도는 0.03(3/100)입니다. 문서 빈도(DF)를 계산하는 한 가지 방법은 "cow"라는 단어가 나타나는 문서 수를 확인하고 이를 컬렉션의 총 문서 수로 나누는 것입니다.

그래서 "소"라는 단어가 1,000개의 문서에 등장하고 전체 문서 수가 10,000,000개라면 역문서 빈도는 9.21=((10,000, 000/1,000)이 됩니다. 최종 TF-IDF는 점수는 0.28=(0.039.21)입니다.