자연어 처리에서 중국어 분사 기술이란 무엇입니까?

영어는 단어 단위이고, 단어와 단어는 공백으로 구분되며, 중국어는 글자 단위인 것으로 알려져 있으며, 문장의 모든 글자가 연결되어 있어야 의미를 설명할 수 있다. 예를 들어, 영어 문장 I am a student 는 중국어로 "저는 학생입니다." 라고 말합니다. 컴퓨터는 공백을 통해 student 가 단어라는 것을 쉽게 알 수 있지만,' 학습' 과' 생' 이라는 두 글자가 합쳐져 한 단어를 나타내는 것은 쉽게 이해할 수 없다. 중국어의 한자 서열을 의미 있는 단어, 즉 중국어 분사로 나누는데, 어떤 사람들은 컷어라고도 한다. 저는 학생이고, 분사의 결과는: 저는 학생입니다. < P > 중국어 분사 기술은 자연어 처리 기술의 범주에 속한다. 한 마디로, 사람은 자신의 지식을 통해 어떤 것이 단어인지, 어떤 것이 단어가 아닌지 알 수 있지만, 어떻게 컴퓨터도 이해할 수 있을까? 그 처리 과정은 분사 알고리즘이다. < P > 기존 분사 알고리즘은 문자열 일치 기반 분사 방법, 이해 기반 분사 방법 및 통계 기반 분사 방법의 세 가지 범주로 나눌 수 있습니다.

1, 문자열 일치를 기반으로 하는 분사 방법 < P > 은 기계 분사 방법이라고도 하며, 특정 전략에 따라 분석할 한자 문자열을' 충분히 큰' 기계 사전의 항목과 일치시키고 사전에서 문자열을 찾으면 일치에 성공합니다 (단어 식별). 스캔 방향에 따라 문자열 일치 분사 방법을 정방향 일치와 역방향 일치로 나눌 수 있습니다. 길이가 다른 우선 순위에 따라 최대 (가장 긴) 일치와 최소 (가장 짧은) 일치로 나눌 수 있습니다. 품사성 표기 과정과 결합되는지 여부에 따라 단순 분사 방법과 분사와 표기를 결합한 일체화 방법으로 나눌 수 있다. 일반적으로 사용되는 몇 가지 기계 분사 방법은 다음과 같습니다.

1) 정방향 최대 일치 방법 (왼쪽에서 오른쪽으로 방향);

2) 역방향 최대 일치 방법 (오른쪽에서 왼쪽으로);

3) 최소 분할 (각 문장에서 잘라낸 단어 수 최소화). < P > 또한 이러한 다양한 방법을 결합할 수 있습니다. 예를 들어 정방향 최대 일치 방법과 역방향 최대 일치 방법을 결합하여 양방향 일치 방법을 구성할 수 있습니다. 중국어 단어 성어의 특징으로 인해 정방향 최소 일치와 역최소 일치는 일반적으로 거의 사용되지 않는다. 일반적으로 역방향 일치의 분할 정확도는 정방향 일치보다 약간 높으며 발생하는 모호성 현상도 적습니다. 통계 결과에 따르면 순방향 최대 일치 오류율은 1/169, 역방향 최대 일치 오류율은 1/245 로 나타났다. 그러나 이 정확도는 아직 실제 요구를 충족시키지 못한다. 실제로 사용되는 분사 시스템은 모두 기계 분사를 초분수단으로 사용하며, 각종 다른 언어 정보를 이용하여 세분화의 정확도를 더욱 높여야 한다. < P > 한 가지 방법은 피쳐 스캔 또는 플래그 분할이라고 하는 스캔 방식을 개선하는 것입니다. 분석할 문자열에서 뚜렷한 특징을 가진 단어를 식별하고 분할하는 것이 우선입니다. 이러한 단어를 중단점으로 사용하여 원래 문자열을 작은 문자열로 나누고 기계 분사를 통해 일치하는 오류율을 줄일 수 있습니다. 또 다른 방법은 분사와 품사 표기를 결합하여 풍부한 품사 정보를 이용하여 분사 결정에 도움을 주고, 표기 과정에서 분사 결과를 검사하고 조정하여 세분화의 정확도를 크게 높이는 것이다. < P > 기계 분사 방법의 경우, 전문적인 학술 논문이 있는 일반적인 모델을 만들 수 있으며, 여기서는 상세한 논술을 하지 않는다.

2, 이해를 바탕으로 한 분사 방법 < P > 은 컴퓨터가 문장에 대한 이해를 시뮬레이션하여 인식어의 효과를 얻을 수 있도록 하는 것이다. 그 기본 사상은 분사와 동시에 구문, 의미 분석을 하고 구문 정보와 의미 정보를 이용하여 모호한 현상을 처리하는 것이다. 일반적으로 분사 하위 시스템, 구문 의미 하위 시스템, 총 제어 섹션의 세 부분으로 구성됩니다. 총통제부의 조율 하에 분사 하위 시스템은 단어, 문장 등에 대한 구문과 의미 정보를 얻어 분사 애매모호성을 판단할 수 있다. 즉, 문장에 대한 사람의 이해 과정을 흉내 내는 것이다. 이런 분사 방법은 대량의 언어 지식과 정보를 사용해야 한다. 중국어 지식의 일반적이고 복잡하기 때문에 다양한 언어 정보를 기계가 직접 읽을 수 있는 형식으로 구성하기 어렵기 때문에, 현재 이해를 바탕으로 한 분사 시스템은 아직 실험 단계에 있다.

3, 통계 기반 분사법 < P > 은 형식적으로 안정된 단어의 조합이므로 문맥에서는 인접한 단어가 동시에 많이 나타날수록 한 단어를 구성할 가능성이 높다. 따라서 글자와 글자에 인접한 * * * 현재의 빈도나 확률은 성어의 신뢰성을 잘 반영할 수 있다. 어료에서 인접한 * * * 현재 각 단어의 조합 빈도를 집계하여 상호 현금 정보를 계산할 수 있습니다. 두 글자의 상호 현금 정보를 정의하여 두 한자 X, Y 의 인접 * * * 현 확률을 계산합니다. 상호 현현 정보는 한자 간의 결합 관계의 긴밀한 정도를 나타낸다. 촘촘함이 특정 임계값보다 높으면 이 단어 그룹이 한 단어를 구성할 수 있다고 생각할 수 있습니다. 이 방법은 어료 중의 글자 그룹 빈도만 계산하면 되고, 사전을 분할할 필요가 없기 때문에 사전분사 또는 통계취사 방법이라고도 한다. 그러나이 방법에는 몇 가지 한계가 있습니다. * * * 현재 빈도가 높지만 "이", "하나", "일부", "내", "많은" 등과 같은 단어의 일반적인 단어 그룹은 아니며 자주 사용되는 단어를 식별합니다. 실제 응용된 통계 분사 시스템은 모두 기본 분사 사전 (상용어사전) 을 이용하여 꼬치 분사를 하고, 동시에 통계 방법을 이용하여 몇 가지 새로운 단어를 인식하여, 꼬치 통계와 꼬치 일치를 결합시켜, 분사 분할 속도가 빠르고 효율이 높은 특징을 발휘하고, 무사전 분사를 이용하여 문맥에 따라 단어를 인식하고, 모호성을 자동으로 제거한다는 장점을 이용한다. < P > 도대체 어떤 분사 알고리즘의 정확도가 더 높은지는 현재로서는 결론이 나지 않는다. 어떤 성숙한 분사 시스템의 경우, 어떤 알고리즘에만 의존해서는 안 되며, 서로 다른 알고리즘을 결합해야 한다. 필자는 대량의 과학 기술의 분사 알고리즘이' 복방분사법' 을 채택한다는 것을 알고 있다. 이른바 복방은 한약중의 복방 개념을 사용하는 것과 같다. 즉, 다른 약으로 종합하여 질병을 치료하는데, 마찬가지로, 중국어 단어의 인식에 대해 여러 가지 알고리즘이 필요하다.