코퍼스 개요

명사 (코퍼스, 복수 회사)

과학적으로 샘플링되고 처리된 대형 전자 텍스트 라이브러리를 나타냅니다. 컴퓨터 분석 도구를 이용하여 연구자들은 언어 이론과 응용에 관한 연구를 전개할 수 있다.

문집

명사 (noun 의 약어) (pl. 코퍼스)

많은 수의 샘플링되고 처리된 전자 텍스트를 말하며, 이러한 텍스트, 언어 연구, 이론 또는 응용 프로그램, 컴퓨터 도구의 도움을 받아 수행할 수 있다. (윌리엄 셰익스피어, 템플릿, 언어, 언어, 언어, 언어, 언어, 언어, 언어)

코퍼스는 코퍼스 언어학 연구의 기초 자원이자 실증 언어 연구 방법의 주요 원천이다. 사전 편집, 언어 교육, 전통 언어 연구, 자연어 처리 통계 또는 사례 기반 연구 등에 사용할 수 있습니다. 어료의 유형은 여러 가지가 있는데, 유형을 결정하는 주된 근거는 연구 목적과 용도이며, 이는 어료 수집의 원칙과 방법에 반영되는 경우가 많다. 어떤 사람들은 코퍼스를 네 가지로 나누었다: 1 이기종: 구체적인 코퍼스 수집 원칙이 없고, 각종 코퍼스가 광범위하게 수집되어 그대로 저장된다. (2) 동질성: 유사한 내용만 수집하는 코퍼스; ⑶ 체계: 미리 정해진 원칙과 비율에 따라 어료를 수집하여 어료 균형과 시스템이 일정 범위의 언어 사실을 대표할 수 있도록 한다. ⑷ 전문화: 특정 목적을위한 코퍼스 만 수집됩니다.

또한 코퍼스의 언어에 따라 코퍼스는 단일 언어 코퍼스, 이중 언어 코퍼스 및 다국어 코퍼스로 나눌 수 있습니다. 코퍼스의 수집 단위에 따라 코퍼스는 텍스트, 문장 및 구로 나눌 수 있습니다. 코퍼스 구성에 따라 이중 언어 및 다국어 코퍼스는 병렬 (정렬) 코퍼스와 비교 코퍼스로 나눌 수 있습니다. 전자코퍼스는 번역관계를 구성하며 기계 번역, 이중어 사전 편찬 등 응용 분야에 많이 사용되며, 후자는 같은 내용을 표현하는 서로 다른 언어 텍스트를 수집하여 언어 비교 연구에 많이 쓰인다. 포르투갈어 트리 데이터베이스, 텍스트 분류 연구를 위한 중국어-영어 뉴스 분류 코퍼스, 로이터 텍스트 분류 교육 코퍼스, 중국어 텍스트 분류 코퍼스, open subtitle Corpus 다국어 병렬 코퍼스 데이터, 성경 이중 언어 코퍼스, SMS 서비스 ( 코퍼스에는 세 가지 특징이 있다.

1. 코퍼스에는 언어의 실제 사용에 실제로 나타나는 언어 자료가 포함되어 있으므로 예문 라이브러리는 코퍼스로 간주해서는 안 됩니다.

코퍼스는 언어 지식을 전달하는 기본 자원이지만 언어 지식과 같지 않습니다.

3. 실제 코퍼스는 처리 (분석 처리) 해야 유용한 자원이 될 수 있다.

코퍼스의 발전은 초기 (컴퓨터 발명 전), 1 세대 코퍼스, 2 세대 코퍼스 및 3 세대 코퍼스를 거쳤다.