음성 분석을 위한 음성 인식

음성 인식(음성 인식)은 컴퓨터를 사용하여 음성 신호의 음소, 음절 또는 단어를 자동으로 인식하는 기술의 일반적인 용어입니다. 음성 인식은 자동 음성 제어의 기초입니다.

음성인식은 1950년대 '받아쓰기 타자기' 꿈에서 유래됐다. 과학자들은 모음의 최고봉 변화와 자음의 음향적 특성을 파악한 뒤 음성에서 문자로 이어지는 과정을 믿었다. 즉, 일반적인 발음을 서면 텍스트로 변환할 수 있습니다. 음성인식에 관한 이론적인 연구는 40년 이상 진행되어 왔지만, 디지털 기술과 집적회로 기술이 발전한 이후에야 실제 응용에 많은 성과를 거두었습니다.

음성인식은 일반적으로 다음과 같은 단계를 거친다. ① 음성의 진폭 정규화, 주파수 응답 보정, 프레이밍, 윈도잉, 시작점과 끝점 검출 등 음성 전처리 과정을 거친다. ② 음성 ​​피크 주파수, 진폭 및 기타 매개변수 분석은 물론 음성 선형 예측 매개변수, 켑스트럼 매개변수 등을 포함한 음성 음향 매개변수 분석 ③파라미터 정규화는 주로 시간 축에 대한 정규화로, 일반적으로 사용되는 방법에는 동적 시간 워핑(DTW) 또는 동적 프로그래밍 방법(DP)이 있습니다. ④ 패턴 매칭은 거리 기준이나 확률 규칙, 구문 분류 등을 사용할 수 있습니다. ⑤인식판단, 최종판별함수를 통해 인식결과를 제공한다.

음성 인식은 다양한 인식 내용에 따라 분류될 수 있습니다: 음소 인식, 음절 인식, 단어 또는 구문 인식. 또한 어휘 크기에 따라 분류될 수도 있습니다: 작은 어휘(50 단어 미만), 중간 어휘; 수량(50~500 단어), 큰 단어 크기(500 단어 이상) 및 매우 큰 단어 크기(수만 단어에서 수만 단어). 발음 특성에 따른 분류 : 고립음 식별, 연결음 식별, 연속음 식별로 나눌 수 있습니다. 화자의 요구사항에 따라 분류되는데, 특정 화자만 인식하는 화자 인식과, 배포하지 않고도 누구나 화자를 인식할 수 있는 비사람 인식이 있다. 분명히 가장 어려운 음성 인식은 큰 단어 크기, 연속적인 소리, 사람을 인식할 수 없는 능력 등의 동시 요구 사항을 충족하는 음성 인식입니다.