1, 표시
표기성이란 텍스트를 문장이나 단어로 나누는 것을 말한다. 이 과정에서 우리는 구두점과 불필요한 기호도 버렸다.
이 단계는 보기만큼 간단하지 않다. 예를 들어, 뉴욕이라는 단어는 두 개의 레이블로 분할되어 있지만, 뉴욕은 동의어이며, 이는 우리 분석에서 매우 중요할 수 있으므로 하나의 태그만 유지하는 것이 좋습니다. 이 단계는 이것에 주의해야 한다.
태그가 있는 장점은 텍스트를 원시 숫자로 쉽게 변환할 수 있는 형식으로 변환하여 실제 처리에 더 적합하다는 것입니다. 이것은 또한 텍스트 데이터 분석에서 명백한 첫 번째 단계입니다.
2. 사용불능인 단어를 삭제합니다.
태그를 지정한 후 다음 단계는 당연히 비활성화어를 삭제하는 것이다. 이 단계의 목표는 이전 단계와 비슷하며 텍스트 데이터를 보다 관리하기 쉬운 형식으로 변환하는 것입니다. 이 단계에서는 영어에서 흔히 볼 수 있는 개사 (예: "and", "the" 및 "a") 를 삭제합니다. 그런 다음 데이터를 분석할 때 간섭을 제거하고 실용적인 단어에 집중할 수 있습니다.
정의 목록의 단어를 비교하여 비활성화된 단어를 쉽게 삭제할 수 있습니다. 주의해야 할 중요한 점은 일반적인 비활성화 어휘가 없다는 것이다. 따라서 이 목록은 일반적으로 처음부터 만들어지며 처리할 응용 프로그램에 맞게 사용자 정의됩니다.
3, 줄기 추출 (줄기 제거)
텍스트 데이터를 정리하는 또 다른 기술은 백본을 추출하는 것입니다. 이 방법은 의미가 같지만 문맥 철자와 약간 다른 단어를 동일한 태그로 복원하여 균일하게 처리하기 위해 단어를 어근 형식으로 복원하는 것입니다. 예를 들어 문장에서 "cook" 이라는 단어를 사용하는 것을 고려해 보십시오.
Cook 의 모든 형태의 의미는 기본적으로 동일하므로 이론적으로 분석 할 때 동일한 태그에 매핑할 수 있습니다. 이 예에서는 cook, cooks, cooked 및 cooking 을 "cook" 으로 표시하여 텍스트 데이터에 대한 추가 분석을 크게 단순화합니다.
4. 단어가 포함되어 있습니다.
위의 세 단계에서 데이터를 정리했으며 이제 실제 처리에 사용할 수 있는 형식으로 변환할 수 있습니다.
단어 포함은 단어를 디지털화하는 한 가지 방법으로 비슷한 의미를 가진 단어가 비슷한 방식으로 표현될 수 있도록 합니다. 현재 단어 포함은 단일 단어를 미리 정의된 벡터 공간에 실제 벡터로 나타내는 것입니다.
모든 단어의 벡터 길이는 동일하지만 숫자 값은 다릅니다. 두 단어의 벡터 사이의 거리는 의미의 근접도를 나타낸다. 예를 들어 "cook" 과 "bake" 라는 두 단어의 벡터는 매우 가깝지만 "football" 과 "bake" 라는 두 단어의 벡터는 완전히 다릅니다.
단어 포함을 만드는 일반적인 방법을 GloVe 라고 하며 전역 벡터를 나타냅니다. GloVe 는 텍스트 코퍼스의 전역 통계 및 로컬 통계를 캡처하여 단어 벡터를 만듭니다.
글로브는 소위 * * * 공생 매트릭스를 사용합니다. * * * 현재 매트릭스는 코퍼스의 각 단어 쌍이 함께 나타나는 빈도를 나타냅니다.
5. 역문서 주파수 (TF-IDF)
단어 빈도-역문서 빈도 (TF-IDF 라고도 함) 라는 용어는 정보 검색 및 텍스트 마이닝과 같은 응용 프로그램에서 일반적으로 사용되는 가중치 요소입니다. TF-IDF 는 통계를 사용하여 특정 문서에 대한 단어의 중요성을 측정합니다.
TF-IDF 는 목표 단어의 로컬 및 글로벌 통계 수준을 고려하여 완벽한 균형을 이룰 수 있습니다. 한 단어가 문서에 나타나는 빈도가 높을수록 문서 전체에서 자주 나타나지 않는 한 가중치가 높아집니다.
강력한 수준으로 인해 TF-IDF 기술은 일반적으로 검색 엔진에서 지정된 키워드 입력 시 문서 관련성의 점수와 순위를 결정하는 데 사용됩니다. 데이터 과학에서는 이 기술을 통해 텍스트 데이터에서 어떤 단어와 관련 정보가 더 중요한지 알 수 있습니다.
6. 테마 모델링
자연어 처리에서 주제 모델링은 텍스트 데이터 또는 문서에서 주요 주제를 추출하는 프로세스입니다. 본질적으로, 이것은 우리가 대량의 텍스트 데이터를 소량의 주제로 축소하기 때문에 일종의 차원 축소 형식이다. 주제 모델링은 많은 데이터 과학 시나리오에서 유용합니다.
7. 감정 분석.
감정 분석은 텍스트 데이터에서 주관적인 정보를 식별하고 추출하도록 설계된 자연어 분석 기술입니다. 주제 모델링과 마찬가지로 감정 분석은 구조화되지 않은 텍스트를 포함된 데이터에 포함된 정보의 기본 요약으로 변환할 수 있습니다.
대부분의 감정 분석 기술은 규칙 기반 방법과 기계 학습 방법 중 하나입니다. 규칙 기반 접근 방식은 결과를 얻기 위해 간단한 단계를 따라야 합니다. 표시, 단어 제거 사용 안 함, 백본 추출과 같은 일부 사전 처리 단계를 수행한 후 규칙 기반 접근 방식은 다음 단계를 따릅니다.
(1) 다른 감정에 대한 어휘를 정의합니다. 예를 들어, 한 단락이 부정적인지 적극적인지를 정의하려는 경우, 부정적인 감정을 나타내는' 나쁜' 과' 무서운' 과 같은 단어들을 정의해야 할 수도 있고, 긍정적인 감정을 나타내는' 위대한' 과' 놀라운' 과 같은 단어들을 정의해야 할 수도 있습니다.
(2) 본문을 훑어보고 각각 긍정적이고 부정적인 감정어의 수를 계산한다.
(3) 긍정적인 감정으로 표시된 단어가 부정적인 감정보다 많으면 텍스트 감정은 긍정적인 감정이고, 그 반대도 마찬가지이다. 감정 분석을 사용하여 일반적인 의미를 얻을 때 규칙 기반 방법이 잘 작동한다. 그러나 오늘날 가장 진보한 시스템은 일반적으로 심도 있는 학습 또는 적어도 고전적인 기계 학습 기술을 사용하여 전체 프로세스를 자동화합니다.
심도 있는 학습 기술을 통해 분류 문제에 따라 감정 분석을 모델링한다. 텍스트 데이터를 포함 공간으로 인코딩하는 것 (위에서 언급한 단어 포함과 유사) 은 함수 추출의 한 형태입니다. 그런 다음 이러한 함수를 분류 모델로 이동하여 텍스트 감정을 분류합니다.