음성 인식 검색

연속 음성 인식의 검색은 입력된 음성 신호를 설명하는 단어 모델 시퀀스를 찾아 단어 디코딩 시퀀스를 얻는 것입니다. 이 검색은 공식의 음향 모델과 언어 모델에 대한 점수를 기준으로 합니다. 실제로 경험에 따라 언어 모델에 높은 가중치를 부여하고 긴 단어에 대한 처벌 점수를 설정해야 하는 경우가 많습니다.

Viterbi: 동적 계획에서 Viterbi 알고리즘의 각 시점 상태에 따라 디코딩 상태 시퀀스의 관찰 시퀀스에 대한 사후 확률을 계산하고, 확률이 가장 큰 경로를 유지하고, 각 노드에 해당하는 상태 정보를 기록하여 최종 역방향으로 단어 디코딩 시퀀스를 얻습니다. Viterbi 알고리즘은 연속 음성 인식에서 HMM 모델 상태 시퀀스와 음향 관찰 시퀀스, 단어 경계 감지 및 단어 인식 사이의 비선형 시간 정렬을 최적 솔루션을 잃지 않고 해결하여 음성 인식 검색의 기본 전략으로 만듭니다.

음성 인식은 현재 시점 이후의 상황을 예측할 수 없기 때문에 목표 함수를 기반으로 하는 계발적 가지치기는 적용하기 어렵다. 비트비 알고리즘의 시간 균질 특성으로 인해 같은 순간의 각 경로는 동일한 관찰 시퀀스에 해당하므로 비교 가능합니다. 빔 검색은 매 순간 확률이 가장 높은 처음 몇 개의 경로만 보존하여 검색 효율성을 크게 향상시킵니다. 이 시간 균일 비트비 빔 알고리즘은 현재 음성 인식 검색에서 가장 효과적인 알고리즘입니다. N-best 검색 및 다중 검색: 검색에서 다양한 지식 소스를 활용하려면 일반적으로 여러 번 검색해야 합니다. 처음으로 저비용 지식 소스를 사용하여 후보 목록 또는 단어 후보 그리드를 생성합니다. 이를 바탕으로 두 번째로 고비용 지식 소스를 사용하여 최적의 경로를 얻습니다. 앞서 소개한 지식원은 음향 모델, 언어 모델, 음성 사전으로 첫 번째 검색에 사용할 수 있습니다. 고급 음성 인식 또는 구어 이해를 달성하기 위해서는 4 차 또는 5 차 N 메타 문법, 4 차 이상 컨텍스트 관련 모델, 단어 간 관련 모델, 분사 모델 또는 문법 분석과 같은 더 비싼 지식 소스를 사용해야 하는 경우가 많습니다. 많은 최신 실시간 대용량 어휘 연속 음성 인식 시스템은 이러한 다중 검색 전략을 사용합니다.

N-best 검색은 각 노드마다 n 개의 최적 경로를 예약하는 후보 목록을 생성하므로 계산 복잡성이 n 배로 증가합니다. 간소화된 방법은 노드당 몇 개의 후보 단어만 유지하는 것이지만, 차선책 후보 단어는 손실될 수 있습니다. 한 가지 절충안은 k-pieces 를 유지하기 위해 두 단어의 경로만 고려하는 것이다. 단어 후보 그리드는 N-best 검색 알고리즘을 적절히 수정하여 후보 그리드를 생성하는 알고리즘을 얻을 수 있는 보다 간결한 방식으로 여러 후보를 제공합니다.

전방 및 후방 검색 알고리즘은 다중 검색을 적용하는 예입니다. 간단한 지식 소스가 전방위트비 검색에 적용될 때 검색 과정에서 얻은 순방향 확률을 역방향 검색의 대상 함수 계산에 사용할 수 있으므로 휴리스틱 A 알고리즘을 역방향 검색에 사용할 수 있으며 N 개의 후보를 경제적으로 검색할 수 있습니다.