음성 인식 과정 및 방법은 다음과 같습니다.
음성 인식 과정
1. 음성 신호 수집
음성 신호 처리 전제 조건입니다. 음성은 일반적으로 마이크를 통해 컴퓨터에 입력됩니다. 마이크는 음파를 전압 신호로 변환한 후 A/D 장치(사운드 카드 등)에서 샘플링하여 연속적인 전압 신호를 컴퓨터가 처리할 수 있는 디지털 신호로 변환합니다.
현재 멀티미디어 컴퓨터가 대중화되면서 사운드 카드, 스피커, 마이크 등은 이미 개인용 컴퓨터의 기본 장비가 됐다. 사운드 카드는 컴퓨터에서 음성 정보를 처리하는 중요한 부분으로 신호 필터링, 증폭, A/D 및 D/A 변환과 같은 기능을 가지고 있습니다. 또한 최신 운영 체제에는 사운드 카드를 구동하여 음성 신호를 수집하고 이를 음성 파일로 저장할 수 있는 녹음 소프트웨어가 함께 제공됩니다.
현장 환경이 좋지 않거나 공간이 제한된 상황, 특히 많은 특수 장비의 경우 현재 마이크로 컨트롤러와 DSP 칩을 기반으로 한 음성 신호 수집 및 처리 시스템이 널리 사용되고 있습니다.
2. 음성 신호 전처리
음성 신호를 수집한 후 먼저 필터링, A/D 변환, 프리엠퍼시스, 엔드포인트 감지 등의 전처리를 거쳐 실제 적용에 들어갑니다. 인식, 종합, 강화 등이 그것이다.
필터링의 목적은 두 가지입니다. 하나는 앨리어싱 간섭을 방지하기 위해 //2(/: 샘플링 주파수)를 초과하는 주파수를 갖는 입력 신호의 모든 구성 요소를 억제하는 것입니다. 전원 공급 장치 주파수 간섭. 따라서 필터는 대역통과 필터여야 합니다.
A/D 변환은 아날로그 음성 신호를 디지털 신호로 변환하는 것입니다. A/D 변환에서는 신호를 양자화해야 합니다. 양자화된 신호 값과 원래 신호 값의 차이는 양자화 잡음이라고도 알려진 양자화 오류입니다.
프리엠퍼시스 처리의 목적은 고주파 부분을 강화하여 신호의 스펙트럼을 평탄하게 만들어 저주파부터 고주파까지 전체 주파수 대역에서 동일한 신호를 유지하는 것입니다. 대잡음 비율을 사용하여 스펙트럼을 얻을 수 있으며 이는 스펙트럼 분석을 용이하게 합니다.
종료점 탐지는 음성이 포함된 신호에서 음성의 시작점과 끝점을 판별하는 것입니다. 효과적인 엔드포인트 감지는 처리 시간을 단축할 뿐만 아니라 조용한 세그먼트의 소음 간섭도 제거합니다. 현재 방법에는 시간 영역 기능 방법과 주파수 영역 기능 방법이라는 두 가지 주요 유형이 있습니다.
시간 영역 기능 방식은 끝점 감지를 위해 음성 볼륨과 영점 교차율을 사용합니다. 계산량이 적지만 공기 소리에 대한 오판이 발생하고 볼륨 계산이 다르면 감지 결과도 달라집니다. 주파수 영역 특징 방법은 음성 검출을 위해 소리 스펙트럼의 변화와 엔트로피 검출을 사용하므로 많은 양의 계산이 필요합니다.
3. 음성 신호의 특성 매개 변수 추출
사람의 음성 주파수는 10kHz 미만입니다. Shannon의 샘플링 정리에 따르면 음성 신호의 샘플링된 데이터에 필요한 단어 정보가 포함되도록 하려면 컴퓨터의 샘플링 주파수가 녹음해야 하는 음성 신호에 포함된 가장 높은 음성 주파수의 두 배 이상이어야 합니다. .
일반적으로 신호는 여러 개의 블록으로 나누어지며, 프레임의 가장자리에 있을 수 있는 중요한 정보가 손실되지 않도록 하기 위해 신호의 각 블록을 프레임이라고 합니다. 겹쳐야 합니다. 예를 들어, 20kHz 샘플링 속도를 사용하는 경우 표준 프레임은 10ms이고 200개의 샘플 값을 포함합니다.
마이크와 같은 음성 입력 장치는 소리 파형을 수집할 수 있지만, 이러한 소리의 파형에는 필요한 단어의 정보가 포함되어 있지만 이러한 파형을 육안으로 관찰하면 얻을 수 있는 정보가 많지 않습니다. 샘플링된 데이터에서 단어를 식별하는 데 도움이 되는 특징 정보를 추출하는 데 필요합니다. 음성 인식에서는 음성 특징을 추출하기 위해 선형 예측 코딩 기술이 일반적으로 사용됩니다.
선형 예측 코딩의 기본 아이디어는 음성 신호 샘플링 지점 사이에 상관 관계가 있으며 과거 여러 샘플링 지점의 선형 결합을 사용하여 현재 및 미래 샘플링 지점 값을 예측할 수 있다는 것입니다. . 선형 예측 계수는 예측된 신호와 실제 신호 사이의 평균 제곱 오차를 최소화하여 고유하게 결정됩니다.
음성 신호의 특성 매개변수로 음성 선형 예측 계수는 음성 처리의 다양한 분야에서 널리 사용되고 있다.
4. 벡터 양자화
벡터 양자화(VQ) 기술은 1970년대 후반에 개발된 데이터 압축 및 코딩 기술입니다. 벡터 양자화된 특징 벡터는 후속 은닉 마르코프 모델에서 입력 관측 기호로 사용될 수도 있습니다.
스칼라 양자화에서는 전체 동적 범위를 여러 개의 작은 간격으로 나누는데, 각각의 작은 간격에는 대표값이 있습니다. 입력 스칼라 신호의 경우 양자화 중에 작은 간격에 속하는 값이 이 대표값을 사용합니다. .>[고티. 이때 세마포어는 1차원 스칼라이기 때문에 스칼라 양자화(Scalar Quantization)라 한다.
벡터 양자화의 개념은 선형 공간의 관점을 이용하여 스칼라를 1차원 벡터로 변환하고 벡터를 양자화하는 것입니다. 스칼라 양자화와 마찬가지로 벡터 양자화는 벡터 공간을 여러 개의 작은 영역으로 나누며, 각 작은 영역은 양자화 중에 작은 영역에 속하는 벡터를 이 대표 벡터로 대체합니다.
벡터 양자화의 기본 원리는 여러 개의 스칼라 데이터를 벡터(또는 음성 데이터의 프레임에서 추출한 특징 벡터)로 결합하여 다차원 공간에서 전체적으로 양자화하는 것입니다. 정보 손실은 압축할 데이터의 양이 적을 수 있습니다.
음성 인식
1. 템플릿 매칭 방법
학습 단계에서 사용자는 어휘의 각 단어를 차례로 말하고 해당 특징 벡터가 저장됩니다. 템플릿 라이브러리에서 템플릿으로. 인식 단계에서는 입력 음성의 특징 벡터 시퀀스를 템플릿 라이브러리에 있는 각 템플릿과 비교하여 유사도가 가장 높은 것을 인식 결과로 출력한다.
2. 확률론적 모델 방법
현재 음성 인식 연구의 주류는 확률론적 모델 방법입니다. 그 대표적인 것이 은닉 마르코프 모델(Hidden Markov Model)이다. 충분히 짧은 시간 동안 음성 신호의 신호 특성은 거의 안정적이며 전체 프로세스는 한 특성에서 다른 특성으로 순차적으로 비교적 안정적으로 전환되는 것으로 볼 수 있습니다. 은닉 마르코프 모델은 확률 및 통계 방법을 사용하여 이러한 시간 변화 프로세스를 설명합니다.
3. 확률적 구문 분석 방법
이 방법은 넓은 길이 범위의 연속 음성 인식에 사용됩니다. 다양한 음성 스펙트로그램과 그 변화를 연구함으로써 음성학자들은 서로 다른 사람들이 동일한 소리를 말할 때 해당 스펙트로그램과 변화에 다양한 차이가 있지만 항상 다른 사람과 구별하기에 충분한 몇 가지 고유한 특성이 있음을 발견했습니다. 음성학자가 제안한 "특징"인 말소리.
반면 인간의 언어는 형태론, 문법, 의미론 등에 영향을 받으며, 인간은 음성을 인식하는 과정에서 이러한 제약과 대화 환경에 대한 관련 정보를 충분히 적용합니다.
따라서 음성 인식 전문가가 제안한 '특이한 특징'과 단어 형성, 구문, 의미론 등의 실용적인 제약을 결합함으로써 '상향식' 또는 '하향식' 모델이 가능합니다. "상호작용 지식 시스템이 형성되어 다양한 수준의 지식이 여러 규칙으로 설명될 수 있습니다.