음성 인식 시스템의 일반적인 아키텍처는 왼쪽에 표시되어 있으며 훈련과 디코딩의 두 단계로 나뉩니다. 훈련, 즉 GMM-HMM, DNN-HMM, RNN+CTC 등의 주석이 달린 대량의 음성 데이터를 통해 음향 모델을 훈련시키는 것, 즉 훈련 세트 외부의 음성 데이터를 텍스트로 인식하는 것; 음향 모델과 언어 모델. 현재 일반적으로 사용되는 오픈 소스 도구에는 엔드투엔드 시스템을 구현하기 위한 HTK Speech Recognition Toolkit, Kaldi ASR 및 Tensorflow(음성-텍스트-wavenet)가 포함됩니다. 나는 음성 인식 분야와 관련된 개념과 원리를 설명하기 위해 고대의 고전적인 HTK를 예로 사용합니다. HTK는 풍부한 음성 데이터 처리는 물론 훈련 및 디코딩 도구도 제공합니다. 음성인식은 고립어와 연속어 음성인식 시스템으로 나누어진다. 초기에는 1952년 벨 연구소와 1962년 IBM이 고립된 단어(특정 사람의 숫자와 개별 영어 단어) 인식 시스템을 구현했다. 지속적인 단어 인식은 사람마다 기분이 다르고 장면마다 일시 정지가 있기 때문에 단어 경계를 결정하기 어렵고 분할된 프레임 수가 동일하지 않을 수 있으며 인식 결과에는 채점 후 처리를 위한 언어 모델이 필요합니다. 적절한 논리적 결과를 얻으려면