코퍼스는 무엇을 의미하나요?

2000년대에 등장한 학제간 학문으로, 자연어 텍스트의 수집, 저장, 처리, 통계적 분석을 연구하는 학문으로, 객관적이고 상세한 언어를 기반으로 언어학적인 연구개발을 하는 것을 목적으로 한다. 대규모 말뭉치가 제공하는 증거 자연어 정보 처리 시스템 개발을 안내합니다.

코퍼스는 이름 그대로 언어자료 창고다. 요즘 사람들이 말뭉치를 말할 때 컴퓨터에 저장된 원본 텍스트나 언어 정보를 처리하고 주석을 붙인 말뭉치 텍스트를 말하는 것은 말할 필요도 없습니다. 지금은 세계적으로 많은 대규모 말뭉치가 있고, 일부는 국가 수준의 것이고, 일부는 대학과 사전 출판사가 공동으로 구축한 것입니다. 또한, 개인용 컴퓨터의 급속한 발전과 데이터 저장을 위한 하드 드라이브의 가격이 지속적으로 하락함에 따라 개별 연구자들은 자신의 연구에 적합한 소규모 코퍼스를 구축하기 시작했습니다.

코퍼스 언어학(영어 코퍼스언어학)이라는 용어에는 크게 두 가지 의미가 있습니다. 하나는 언어의 특정 측면을 연구하기 위해 말뭉치를 사용하는 것입니다. 즉, "말뭉치 언어학"은 새로운 학문의 이름이 아니라 새로운 연구 방법을 반영할 뿐입니다. 두 번째는 코퍼스에 반영된 언어적 사실을 바탕으로 현재의 언어이론을 비판하고 새로운 관점이나 이론을 제안하는 것이다. 이런 의미에서만 "말뭉치 언어학"은 새로운 학문의 이름입니다. 기존 문헌으로 볼 때 후자에 속하는 연구는 아직까지 매우 적은 편이다. 따라서 엄밀히 말하면 말뭉치언어학은 사회언어학, 심리언어학, 화용론 등 언어학의 한 분야와 비교할 수 없습니다.

최근 몇 년 동안 우리나라 경제가 발전하고 과학 연구 자금이 증가함에 따라 중국어 코퍼스 구축이 진행되었습니다. 우리 연구소는 1999년에 중국어 말뭉치 구축을 연구소의 주요 사업으로 선정했다. 현재 언어연구소에서는 실시간 즉석 담화 코퍼스, 주요 방언 구어 코퍼스, 현대 중국어 텍스트 코퍼스 등 3개의 대규모 코퍼스를 구축하고 있습니다. 전 세계적으로 우리나라의 말뭉치 구성은 아직 유럽의 일부 선진국, 특히 영국만큼 크지 않습니다. 그러나 말뭉치언어학 연구와 말뭉치의 실제적 응용에 있어서는 우리나라가 세계 선두에 섰다.

20세기 언어 연구의 일반적인 특징은 고도의 추상화라는 네 단어로 요약된다. 최근 수십 년 동안 언어 연구에서 고도로 추상적인 경향이 그 지배력을 잃었습니다. 이는 주로 두 가지 요인에 기인합니다: 첫째, 컴퓨터 기술, 특히 컴퓨터 처리를 기반으로 하는 멀티미디어 기술의 급속한 발전, 둘째, 사회언어학, 화용론, 대화 분석, 인간 언어학, 컴퓨터 언어학, 인간-기계 대화 연구, 음성 인식에 대한 연구 그리고 합성은 놀라운 성과를 거두었습니다. 이전에는 캡처하고 효과적으로 처리하기 어려웠던 다양한 실제 자료를 이제 자동으로 또는 인간과 기계의 협력을 통해 대규모로 처리할 수 있습니다. 예를 들어, 이전에는 언어학과 무관하다고 생각되었던 개인의 발음 특성이 이제는 음성학을 탐지하는 데 중요한 부분이 되었습니다. 음성학자 탐정은 먼저 용의자를 식별하는 데 사용할 수 있는 개인 발음 특성 모음을 구축합니다. 요컨대, 오늘날의 언어 연구는 이전의 높은 추상 수준에서 뉴런의 움직임을 포함한 언어의 가장 구체적이고 실제적인 활동으로 점차 이동하고 있습니다. 예를 들어, 신경언어학은 인간 두뇌가 언어를 처리하는 방식의 비밀을 밝히는 것을 목표로 하는 학문입니다.

말뭉치와 말뭉치 언어학은 오늘날의 언어 연구가 고도의 추상화에서 실제 언어 사용으로 전환하는 데 매우 중요한 역할을 합니다. 첫째, 실제 말뭉치 제공, 셋째, 통계 데이터 제공; 현재 이론을 검증하고, 네 번째는 새로운 이론을 구축하는 것입니다. 이것이 말뭉치, 말뭉치언어학의 실천적 가치라 할 수 있다. 실제 코퍼스를 제공하는 것은 사전 편찬의 생명선이라고 할 수 있습니다. 거의 모든 대중 영어사전은 대규모 말뭉치를 기반으로 편찬되었습니다. 대규모 코퍼스를 기반으로 한 영어 문법책도 출시됐다. 대규모 말뭉치를 통한 통계 모델 구축은 언어 정보 처리의 주류 방식이 되었습니다. 기존의 규칙 기반 기계 번역, 음성 합성 및 인식, 텍스트-음성 변환 등은 대규모 말뭉치의 데이터 지원 없이는 좋은 결과를 얻을 수 없었습니다.

이론적 구성 측면에서 영국 국립 구어체 영어 코퍼스를 기반으로 한 연구에 따르면 실제 영어 구어체를 기반으로 한 구어체 영어의 문법은 문어체를 기반으로 한 문법과 매우 다르다고 해도 과언이 아닙니다. 다른 문법.

유럽에서는 말뭉치언어학이 언어학의 주류 분야로 자리 잡았습니다. 언어실천을 중시하는 우리나라에서는 말뭉치언어학도 연구자들의 관심을 점점 더 많이 받고 좋은 결과를 얻을 것이라고 믿습니다.

참고자료: 중국 사회과학원 저널