논문에서 자주 언급되는 토큰은 무엇을 의미하나요?

코퍼스 언어학에서는 토큰과 텍스트 유형이 계산됩니다. 토큰은 텍스트에 나타나는 모든 단어의 수인 "형식 기호"를 나타내고, 유형은 텍스트에 나타나는 다양한 단어의 수인 "유형 기호"를 나타냅니다.

예를 들어 I am a boy라는 두 문장의 텍스트가 있습니다.

그러면 이 텍스트에는 8개의 토큰과 4가지 유형이 있습니다. 두 수치값은 생성된 말뭉치를 설명할 수도 있고, 둘 사이의 비율을 계산해 말뭉치 텍스트의 복잡도 등을 계산할 수도 있다.

언어학, 특히 말뭉치언어학에서 자주 등장하는 토큰의 의미입니다. 더 자세한 내용은 코퍼스 언어학에 관한 기사를 읽어보세요.