음성 합성 소개 텍스트를 음성으로

이 블로그의 주요 내용은 문자 대 음성의 배경 지식을 소개하는 것이다. 독자들이 음성 합성의 작동 원리를 쉽게 이해하고 가장 선진적인 텍스트 음성 변환 알고리즘을 이해하기 위한 토대를 마련할 수 있기를 바랍니다.

이 소개는 주로 이 글의 부록 "Wave Net:Raw Audio 의 생성 모델" 을 기반으로 합니다. 논문 링크는 blogs.com/baroc/p/428380.html 입니다.

신경 네트워크 알고리즘의 경우 일반적으로 softmax 분류기를 기반으로 256 개의 정량화 값, 해당 사운드의 256 개의 정량화 값을 생성합니다. WaveRNN 과 wavenet 은 이렇게 생성됩니다.

다음은 내가 음성 합성을 배우는 자료인데, 그중에서도 스탠퍼드 cs224s 를 강력하게 추천하지만, 이 강의의 논리는 그다지 명확하지 않아 반복해서 보면 알 수 있다.

Ucsb 디지털 음성 처리 자습서, 사운드 신호 처리 기초 한번 보시기 바랍니다. 링크는 다음과 같습니다. /view/68fbf1a4f61fb7360b4c658b.html