음성 인식의 좋은 점은 무엇입니까?

기본 고전 음성 인식 알고리즘을 설명합니다. 알고리즘의 의미를 간단히 설명하고 싶습니다. 관련 피쳐 추출 (프레임 포함), 음소 모델링, 사전, 숨겨진 마르코프 모델, 위층 답변을 참조하십시오. 음성 인식의 첫 번째 특징은 인식할 음성 내용 (모음 등과 비교) 입니다. ) 는 불확실한 시계열입니다. 즉, 현재 모음이 인식되기 전에 얼마나 긴지 알 수 없기 때문에 통계 모델을 구성할 때 음성 인식이 0.0 ~ 0.5 초 또는 0.2 ~ 0.8 초를 입력하는지 쉽게 확인할 수 없습니다 각 프레임은 상대적으로 짧고 고정된 시간 (예: 25ms) 을 사용하며, 이러한 프레임이 충분히 길면 (어느 모음에 속하는지 판단할 수 있는 충분한 정보를 포함할 수 있음) 안정적 (단시간 푸리에 분석을 용이하게 함) 으로 가정하여 각 프레임을 하나의 피쳐 벡터로 변환하고 (반대로) 문제를 해결할 모음을 식별할 수 있습니다. 인식된 결과는 다음과 같습니다. 예를 들어 프레임 100 부터 105 까지는 이니셜 c 이고 프레임 106 부터1/kloc-까지입니다 이런 사고는 미적분학의' 직대 곡선' 과 비슷하다. 또한 실제 로케이션 과정에는 인접한 두 프레임 사이의 겹침 또는 도입과 같은 많은 일반적인 기술이 있습니다