그런 다음 피쳐 추출은 사운드 신호를 시간 영역에서 주파수 영역으로 변환하여 음향 모델에 적합한 피쳐 벡터를 제공합니다. 음향 모델에서는 음향 특징에 따라 각 피쳐 벡터의 음향 피쳐에 대한 점수를 계산합니다. 언어 모델은 언어학의 관련 이론에 따라 가능한 구문 시퀀스에 해당하는 사운드 신호의 확률을 계산합니다. 마지막으로 기존 사전에 따라 구문 시퀀스를 디코딩하여 가능한 최종 텍스트 표현을 얻습니다.
음성 인식의 전제와 기초로서 음성 신호의 사전 처리는 매우 중요하다. 최종 템플릿 일치에서 입력 음성 신호의 피쳐 매개변수를 템플릿 라이브러리의 피쳐 매개변수와 비교합니다. 따라서 사전 처리 단계에서 음성 신호의 본질적 특성을 나타내는 특성 매개변수를 얻을 수 있는 경우에만 이러한 특성 매개변수를 높은 인식률을 가진 음성 인식에 일치시킬 수 있습니다.