영어와 중국어 농담의 유사점과 차이점 분석

1. 중국어와 영어 단어를 분할하는 다양한 방법

단어 분할은 중국어와 영어 NLP의 가장 잘 알려진 차이점입니다. 영어 단어는 자연스럽게 공백으로 구분된다는 사실은 우리 모두 알고 있으므로, 영어 텍스트를 처리할 때 공백으로 단어를 구분하는 것은 매우 쉽습니다. 예를 들어 영어 문장:

DataGrand is a Chinese company

는 DataGrand / is / a / Chinese / company로 쉽게 나눌 수 있습니다(텍스트에서는 /를 사용하여 어휘 구분 기호를 나타냅니다). ).

한자는 문장 중간에 구분 기호가 없고, 대신 일련의 연속된 한자가 차례로 연결되어 문장을 형성합니다. 현대 중국어에서 의미를 표현하는 기본 형태소는 문자보다는 단어이다. 예를 들어 'natural'은 'zi'와 'ran'으로 분리해서 의미를 표현할 수 없고, 두 단어의 조합만이 정확한 의미를 가질 수 있습니다. 따라서 컴퓨터 기술을 사용하여 중국어의 자동 의미 분석을 수행할 때 첫 번째 작업은 일반적으로 중국어 단어 분할입니다. 중국어 단어 분할이란 연속된 한자 문자열을 사람들이 중국어를 이해하는 방식에 따라 별도의 의미를 표현할 수 있는 단어로 나누는 것을 말합니다. 예를 들어 중국어 문장은 다음과 같습니다.

"Daguan Data는 중국 회사입니다."

컴퓨터가 처리하도록 하세요. 첫 번째 단계는 "Daguan Data/is/a"로 나누어야 합니다. /China/company" "이러한 단어 문자열의 형태를 확인한 후 후속 이해 및 처리를 수행합니다.

의미론에 따라 중국어를 올바르게 분할하는 것은 어려운 작업입니다. 단어 분할에 오류가 발생하면 후속 텍스트 처리에서 연쇄 문제가 발생하고 의미를 올바르게 이해하는 데 장애가 됩니다. 중국어를 빠르고 정확하게 분할하기 위해 학계에서는 50년 이상 연구를 진행하고 다양한 방법을 제시해 왔습니다. 일반적인 중국어 단어 분할 방법에는 고전적인 기계적 분할 방법(예: 정방향/역방향 최대 일치, 양방향 최대 일치 등)과 더 나은 효과를 갖는 통계적 분할 방법(예: 숨겨진 Markov HMM, 조건부 무작위 필드)이 포함됩니다. , RNN, LSTM 및 최근 몇 년간 등장한 심층 신경망을 사용하는 기타 방법도 있습니다.

중국어 문법 자체가 매우 유연하기 때문에 의미가 모호한 경우가 많아 중국어 단어 분할을 올바르게 완성하는 데 많은 장애물이 발생합니다. "Yan Shou Yi Yi의 휴대폰이 꺼져 있습니다"라는 예문에서 볼 수 있듯이 의미론적 이해에 따르면 올바른 분할 방법은 "Yan Shou Yi/한 줌/휴대폰/꺼졌습니다"이지만 알고리즘이 잘못된 경우, "Yan Shou/한 줌/휴대폰/오프"로 분류하기 쉽습니다.

더 어려운 점은 두 단어 분할 방법이 동일한 의미를 갖는 경우가 있다는 것입니다. 예를 들어 '탁구공이 경매된다'는 '탁구/라켓/판매'와 '탁구'로 구분됩니다. 공/경매/판매됨'은 그 자체로 가능하므로 현재 올바른 분할 방법을 선택하려면 더 많은 컨텍스트에 의존해야 합니다. 비슷한 것에는 "난징 장강 다리", "길림성 장춘 약국" 등이 있습니다. "시장"과 "지사"를 생략하면 문장 전체에 대한 이해가 많이 달라지게 됩니다. 모호성의 일반적인 유형으로는 교차 모호성(Cross Ambiguity)과 조합 모호성(Combination Ambiguity)이 있습니다. 의미 명확성 측면에서 국내외 학자들은 한티베트어족의 이러한 특정 문제를 해결하기 위해 최근 몇 년 동안 지속적으로 새로운 솔루션을 제안해 왔습니다.

그런데 중국어와 마찬가지로 일본어도 문장에 자연 구분자가 부족하기 때문에 일본어에도 단어 분할이 필요합니다. 일본어는 중국어 문법의 영향을 많이 받았지만, 메이지 시대에는 중국어와 가나를 섞은 것처럼 한자를 폐지하고 병음을 장려하려는 움직임이 있었습니다. 영어. 업계에서 비교적 잘 알려진 일본어 단어 분할기는 MeCab이며, 이 알고리즘의 핵심은 조건부 무작위 필드 CRF입니다. 실제로 MeCab의 내부 학습 코퍼스를 일본어에서 중국어로 변경하면 중국어를 분할하는 데에도 사용할 수 있습니다.

최근 NLP 분야에 딥러닝 기술이 성공적으로 적용되면서 일부 seq2seq 학습 프로세스에서는 더 이상 단어 분할을 사용할 수 없지만 단어를 입력 시퀀스로 직접 사용하여 신경망이 자동으로 학습할 수 있게 되었습니다. 일부 엔드 투 엔드 애플리케이션(예: 자동 요약, 기계 번역, 텍스트 분류 등)에서는 실제로 중국어 단어 분할 단계가 생략되는 반면, NLP 애플리케이션도 많습니다. 개체 인식, 검색 엔진 등과 같은 단어 분할 결과와 분리할 수 없는 반면, 분할을 통해 얻은 단어는 단일 단어와 함께 특징 입력으로 사용되어 기능을 향상시킬 수도 있습니다. 효과.

따라서 단어 분할은 공학계의 중국어 처리에서 여전히 중요한 기술입니다.

2. 영어 형태소와 중국어 어근의 사용

영어 단어 추출이 중국어에 비해 훨씬 간단하고 공백을 통해 단어를 완전히 얻을 수 있지만, 영어 특유의 말은 변형 변형이 풍부하다는 것입니다. 이러한 복잡한 변환에 대처하기 위해 영어 NLP에는 중국어에 비해 몇 가지 독특한 처리 단계가 있는데, 이를 표제어 추출 및 형태소 분석이라고 합니다.

Lemmatization은 영어 단어에 단수형과 복수형, 능동형과 수동형, 시제 변화(***16종) 등이 풍부하기 때문에 단어를 원래 형태로 '복원'하는 것이 필요합니다. 의미론적 이해 중에 컴퓨터가 후속 처리를 더 쉽게 수행할 수 있습니다. 예를 들어, 후속 컴퓨터 의미 분석을 용이하게 하기 위해서는 품사 복원을 통해 "does, done, looking, do, did"라는 단어를 "do"라는 단어로 복원해야 합니다. 유사하게: "감자, 도시, 어린이, 치아"와 같은 명사는 Lemmatization을 통해 "감자, 도시, 어린이, 치아"와 같은 기본 형태로 변환되어야 합니다. 마찬가지로 "were, Starting, Drive" 등으로 변환되어야 합니다. "시작, 운전"입니다.

복원의 정확성을 보장하고 모호성을 피하기 위해 일반적으로 품사 태그 지정(pos-tag)과 함께 원형 복원을 수행해야 합니다. 영어에는 일부 다의어 단어가 있기 때문에, 예를 들어 calves는 다의어 단어인데, 이는 calf(명사, 송아지)의 복수형으로 사용될 수도 있고, calve(동사, ~을 낳다)의 3인칭 단수형으로 사용될 수도 있습니다. 송아지). 따라서 표제어 추출에는 두 가지 옵션이 있습니다. 실제 표현되는 품사에 따라 적절한 복원 방법을 선택해야 합니다.