성대가 매번 개폐되는 시간을 피치 주기라고 하고, 그 역수를 피치 주파수라고 한다. 인류의 최저 기음 주파수는 약 50Hz, 최고 약 500Hz 이다. 이 가운데 남성의 음고 주파수는 약 50-250Hz, 여성은 약 100-500Hz 이다. * * * 성대가 한 번 열리는 시간을 피치 주기 * * 라고 하며, 그 역수를 피치 주파수라고 합니다. 인류의 최저 기음 주파수는 약 50Hz, 최고 약 500Hz 이다. 그 중 남성의 음고 주파수는 약 50-250Hz, 여성은 약 100-500Hz 입니다.
인간의 음성 신호는 주로 다른 성질의 청음과 탁음 성분으로 구성되어 있다. 공기 흐름이 성대를 통과할 때, 성대가 긴장하면 성대가 이완진동을 일으킬 수 있다. 즉, 성대가 주기적으로 개폐된다. 이 경우 성문에서 발생하는 준주기 펄스 기류가 채널을 통과한 다음 입안에서 방출되는 음파가 탁음 음성이다. 이 준주기 펄스의 주기도 위에서 언급한 음조 주기이다. 성대가 짧을수록 두께가 얇을수록 장력이 커지고 피치가 높을수록 피치 주파수가 높아집니다. 따라서 음고 주기 (음고 주파수) 는 성대의 개폐 주기에 의해 결정된다.
기류가 성대를 통과할 때 성대가 완전히 늘어나면 폐의 기류가 영향을 받지 않고 성문을 통과한다. 이어 채널의 변화로 인해 기류가 마찰음이나 폭파음을 형성하는데, 이는 청음의 두 가지 기본 유형이다.
결론적으로 청음과 탁음 중 탁음만이 성대의 개합과 관련이 있다. 따라서 피치 주파수를 감지하려면 먼저 소리 신호의 탁음 성분을 찾아 분석해야 한다.
주파수 영역에서 음성 신호를 분석하면 시간 영역에서 구현할 수 없는 몇 가지 특징을 매우 뚜렷하게 만들 수 있습니다. 일반적으로 사용되는 주파수 영역 분석 방법은 푸리에 변환으로, 신호를 다양한 주파수 구성 요소의 조합으로 분해하여 신호의 시간 영역 특성과 주파수 영역 특성을 결합합니다. 그러나 단순히 푸리에 변환만으로는 음성 신호의 채널 특성과 인센티브 특성을 볼 수 없습니다. 따라서 사람들은 푸리에 변환을 개선하여 역보 방법을 제시했다.
음성 신호에 따라 성문 신호와 채널의 펄스 응답을 반연해야 하는 경우도 있습니다. 즉, 컨볼 루션 결과를 알고 있는 상태에서 결과에 대한 "컨볼 루션" 을 수행하여 컨볼 루션에 참여하는 신호를 받는 것입니다. Cepstral 방법은 "디콘 볼 루션" 을 실현하는 방법 중 하나입니다.
X[n] 을 입력 신호, 즉 성문의 여기 신호로 설정하십시오. H[n] 은 시스템의 충격 응답, 즉 채널의 충격 응답입니다. Y[n] 은 출력 신호, 즉 입에서 나오는 음성 신호입니다. Cepstral 분석은 실제로 그런 과정입니다.
(1) 원시 음성 신호에 대한 푸리에 변환 (여기서 * 는 회선 연산을 나타냄) 스펙트럼을 얻습니다. 범위만 고려합니다.
(2) 양쪽의 로그를 가져 가라.
(3) 푸리에 변환 양쪽에:
IDFT 는 푸리에 역변환입니다. 음성 신호의 스펙트럼은 음성 신호의 단시간 스펙트럼을 로그로 사용한 다음 IDFT 처리를 통해 얻을 수 있다. (윌리엄 셰익스피어, 음성, 음성, 음성, 음성, 음성, 음성, 음성, 음성)
따라서 탁음 신호의 주기성 인센티브는 역보에 같은 주기성 펄스로 반영된다. 따라서 탁음 신호의 역보 파형에서 피치 주기를 추정하여 피치 주파수를 계산할 수 있습니다. 음성 신호 처리에서 탁음 역보 파형의 두 번째 펄스, 즉 두 번째 최대 피크에 해당하는 주파수는 일반적으로 전체 탁음 신호의 피치 주파수로 간주됩니다. 그림 2.3. 1, 각각 청음과 탁음의 역보 파형을 제공합니다. 여기서 가로축은 주파수입니다. 청음 신호 파형 그래프 중간에 펄스 응답이 없습니다. 그러나 탁음 신호 파형 중간에 약간의 펄스 응답이 있고, 두 번째 펄스 응답의 주파수는 탁음 신호의 피치 주파수, 즉 약 55Hz 입니다.
Matlab 프로그램