코퍼스는 과학적으로 샘플링되고 처리된 대형 전자 텍스트 라이브러리로, 언어의 실제 사용에 실제로 등장한 언어 자료를 저장합니다.
어료의 유형은 여러 가지가 있는데, 유형을 결정하는 주된 근거는 연구 목적과 용도이며, 이는 어료 수집의 원칙과 방법에 반영되는 경우가 많다. 어떤 사람들은 코퍼스를 네 가지 유형으로 나누었습니다.
(1) 이성질체: 구체적인 어료 수집 원칙이 없고, 각종 어재가 광범위하게 수집되어 그대로 저장된다.
(2) 동질성: 유사한 내용만 수집하는 코퍼스;
⑶ 체계: 미리 정해진 원칙과 비율에 따라 어료를 수집하여 어료 균형과 시스템이 일정 범위의 언어 사실을 대표할 수 있도록 한다.
⑷ 전문화: 특정 목적을위한 코퍼스 만 수집됩니다.
또한 코퍼스의 언어에 따라 코퍼스는 단일 언어 코퍼스, 이중 언어 코퍼스 및 다국어 코퍼스로 나눌 수 있습니다. 코퍼스의 수집 단위에 따라 코퍼스는 텍스트, 문장 및 구로 나눌 수 있습니다.
코퍼스 구성에 따라 이중 언어 및 다국어 코퍼스는 병렬 (정렬) 코퍼스와 비교 코퍼스로 나눌 수 있습니다. 전자코퍼스는 번역관계를 구성하며 기계 번역, 이중어 사전 편찬 등 응용 분야에 많이 사용되며, 후자는 같은 내용을 표현하는 서로 다른 언어 텍스트를 수집하여 언어 비교 연구에 많이 쓰인다.
다음과 같은 다양한 유형의 코퍼스를 축적했습니다.
포르투갈어 코퍼스, 텍스트 분류 연구를 위한 중국어-영어 뉴스 분류 코퍼스, 로이터 텍스트 분류 교육 코퍼스, 중국어 텍스트 분류 코퍼스, open subtitle 라이브러리의 다국어 병렬 코퍼스 데이터 (open subtitle 코퍼스), SMS 코퍼스 (SMS 코퍼스) 등이 있습니다.