코퍼스 언어학에서는 토큰과 텍스트 유형이 계산됩니다. 토큰은 텍스트에 나타나는 모든 단어의 수인 "형식 기호"를 나타내고, 유형은 텍스트에 나타나는 다양한 단어의 수인 "유형 기호"를 나타냅니다.
예를 들어 I am a boy라는 두 문장의 텍스트가 있습니다.
그러면 이 텍스트에는 8개의 토큰과 4가지 유형이 있습니다. 두 수치값은 생성된 말뭉치를 설명할 수도 있고, 둘 사이의 비율을 계산해 말뭉치 텍스트의 복잡도 등을 계산할 수도 있다.
언어학, 특히 말뭉치언어학에서 자주 등장하는 토큰의 의미입니다. 더 자세한 내용은 코퍼스 언어학에 관한 기사를 읽어보세요.