일반적으로 일반 언어에서 서로 다른 음성 프리미티브 수가 제한되어 음성 신호의 주파수 영역 또는 시간 영역 특성으로 구분할 수 있는 것으로 간주됩니다. 이런 식으로 이 방법은 두 단계로 구현됩니다.
첫 번째 단계는 세분화하고 치수를 기입하는 것입니다.
음성 신호는 시간적으로 개별 세그먼트로 나뉘며, 각 세그먼트는 하나 이상의 음성 프리미티브 음향 특성에 해당합니다. 그런 다음 해당 음향 특징에 따라 각 조각에 유사한 음성 레이블을 지정합니다.
두 번째 단계는 단어 시퀀스를 얻는 것입니다.
첫 번째 단계에서 얻은 음성 레이블 순서에 따라 음성 프리미티브 그리드, 사전에서 유효한 단어 시퀀스 또는 문장의 문법, 의미와 동시에 진행할 수 있습니다. 템플릿 매칭 방법은 비교적 성숙하여 이미 실용단계에 이르렀다. 템플릿 일치 방법에는 피쳐 추출, 템플릿 교육, 템플릿 분류 및 판단의 네 단계가 있습니다. 동적 시간 구부리기 (DTW), 숨겨진 마르코프 (HMM) 이론 및 벡터 정량화 (VQ) 기술의 세 가지 일반적인 기술이 있습니다.
1, 동적 시간 왜곡 (DTW)
음성 신호의 종점 탐지는 음성 인식의 기본 단계이며 특징 훈련과 인식의 기초이다. 종단점 탐지란 음성 신호에 있는 다양한 단락 (예: 음소, 음절, 형태소) 의 시작 및 끝 지점에서 음성 신호에서 소리 없는 세그먼트를 제외하는 것입니다. 초기 엔드포인트 탐지의 주요 근거는 에너지, 진폭 및 0% 입니다. 그러나 효과는 종종 뚜렷하지 않다. 1960 년대에 일본 학자 판창은 동적 시간 굽힘 알고리즘 (DTW) 을 제안했다. 이 알고리즘의 아이디어는 참조 모드의 길이와 일치할 때까지 미지수를 균일하게 늘리거나 줄이는 것입니다. 이 과정에서 로그인되지 않은 단어의 타임라인은 균일하게 왜곡되거나 구부러지지 않아 해당 특성이 모형 피쳐에 맞게 정렬됩니다.
숨겨진 마르코프 방법
숨겨진 마르코프 방법 (HMM) 은 1970 년대에 음성 인식 이론을 도입하여 자연 음성 인식 시스템에 실질적인 돌파구를 마련했다. HMM 방법은 음성 인식의 주류 기술이되었습니다. 현재 대부분의 어휘, 연속 음성의 비특정 음성 인식 시스템은 HMM 모델을 기반으로 합니다. HMM 은 음성 신호 시계열 구조의 통계 모델을 설정하고 수학적 이중 임의 프로세스로 간주합니다. 하나는 제한된 상태의 마르코프 체인을 사용하여 음성 신호 통계 특징을 시뮬레이션하는 암시적 임의 프로세스이고, 다른 하나는 마르코프 체인의 각 상태와 연관된 관찰 시퀀스의 임의 프로세스입니다. 전자는 후자로 표현되지만 전자의 구체적인 매개변수는 예측할 수 없다. 사실, 사람의 음성 과정은 이중 무작위 과정이며, 음성 신호 자체는 관찰 가능한 시변 시퀀스이며, 뇌가 문법 지식과 음성 요구 사항 (관찰 불가능한 상태) 에 따라 방출하는 음소의 매개 변수 흐름이다. HMM 은 이 과정을 합리적으로 시뮬레이션하여 음성 신호의 전역 비부드러움과 국부적인 부드러움을 잘 설명하는 이상적인 음성 모델입니다.
3. 벡터 양자화 (VQ)
벡터 양자화는 중요한 신호 압축 방법입니다. HMM 에 비해 벡터 정량화는 주로 작은 어휘량과 고립된 단어의 음성 인식에 적합합니다. 프로세스는 다음과 같습니다. 음성 신호 파형의 K 샘플링 지점의 각 프레임 또는 K 매개 변수의 각 매개 변수 프레임은 K 차원 공간에서 벡터를 구성하고 벡터를 수량화합니다. 수량화할 때 K 차원의 무한 공간을 M 개의 영역 경계로 나눈 다음 입력 벡터를 이러한 경계와 비교하여 "거리" 가 가장 작은 영역 경계의 중심 벡터 값으로 수량화합니다. 벡터 수량화기는 대량의 신호 샘플에서 좋은 코드북을 훈련하고, 실제 효과에서 좋은 왜곡 측정 정의 공식을 찾아 최적의 벡터 정량화 시스템을 설계하고, 최소한의 검색으로 왜곡량을 계산하여 가능한 평균 신호 대 잡음비를 실현하도록 설계되었습니다.
핵심 아이디어는 다음과 같이 이해할 수 있습니다: 코드가 특정 정보 소스에 맞게 최적화된 경우, 이 정보 소스와 코드북에서 생성된 신호의 평균 양적 왜곡은 다른 정보 신호와 코드북의 평균 양적 왜곡보다 작아야 합니다. 즉, 인코더 자체는 분별력이 있습니다.
실제 응용 과정에서 사람들은 복잡성을 줄일 수 있는 여러 가지 방법을 연구했다. 대체로 무기억 벡터 정량화와 메모리 벡터 정량화의 두 가지 범주로 나눌 수 있다. 기억없는 벡터 정량화에는 트리 검색 벡터 정량화 및 다중 레벨 벡터 정량화가 포함됩니다. 인공신경망을 사용하는 방법은 80 년대 후반에 제기된 새로운 음성 인식 방법이다. 인공신경망은 본질적으로 적응형 비선형 동적 시스템으로, 인간 신경 활동의 원리를 시뮬레이션하여 적응성, 병렬성, 루바, 내결함성, 학습성 등의 특징을 가지고 있다. 강력한 분류 및 입출력 매핑 기능은 음성 인식에 매우 매력적입니다. 그러나 훈련과 인식 시간이 너무 길다는 단점으로 아직 실험 탐구 단계에 있다.
인공신경망은 음성 신호의 시간 동적 특성을 잘 묘사할 수 없기 때문에, 종종 인공신경망과 전통적인 인식 방법을 결합하여 각자의 장점을 이용하여 음성 인식을 한다.