음성 인식에서 CTC 방법의 기본 원리는 무엇입니까?

음성 모델에 대한 사전 훈련에서는 기본적으로 전통적인 HMM 과 GMM 을 사용하여 각 프레임에 대한 교육 데이터를 표시해야 합니다. 그런 다음 표시된 데이터로 신경 모델을 훈련시킵니다. 종단간 방안은 이 비신경 네트워크 처리 단계를 없애고 CTC 와 RNN 을 직접 사용하여 음성 모델을 훈련하는 것이다. 훈련 데이터를 프레임에 표시할 필요가 없고, 다른 (HMM, GMM) 을 통해 신경망 모델을 훈련시킬 필요가 없다. 전통적인 음성 인식 모델에서는 음성 모델을 훈련시키기 전에 텍스트를 음성과 엄격하게 정렬해야 하는 경우가 많습니다. 두 가지 나쁜 점이 있다. 성숙한 오픈소스 비교 도구가 있지만 심도 있는 학습이 보급됨에 따라, 우리 인터넷이 스스로 비교 방법을 배울 수 있을까 하는 의문이 들 수 있다. (윌리엄 셰익스피어, 윈스턴, 인터넷명언) (윌리엄 셰익스피어, 윈스턴, 인터넷명언) 그래서 CTC 가 등장했습니다. 생각해 보세요. 왜 CTC 는 음성과 문자 정렬이 필요하지 않습니까? CTC 는 신경망이 언제든지 라벨을 예측할 수 있도록 허용하기 때문에, 출력 시퀀스가 정확하기만 하면 ok ~ 그래서 우리는 텍스트와 음성을 엄격하게 정렬할 필요가 없고, CTC 출력은 전체 시퀀스 레이블이며, 사후 처리 작업을 할 필요가 없다. (알버트 아인슈타인, Northern Exposure (미국 TV 드라마), 스포츠명언) 다음 그림은 오디오 세그먼트에 CTC 및 텍스트 정렬을 사용하는 예를 보여 줍니다.