이 소개는 주로 이 글의 부록 "Wave Net:Raw Audio 의 생성 모델" 을 기반으로 합니다. 논문 링크는 blogs.com/baroc/p/428380.html 입니다.
신경 네트워크 알고리즘의 경우 일반적으로 softmax 분류기를 기반으로 256 개의 정량화 값, 해당 사운드의 256 개의 정량화 값을 생성합니다. WaveRNN 과 wavenet 은 이렇게 생성됩니다.
다음은 내가 음성 합성을 배우는 자료인데, 그중에서도 스탠퍼드 cs224s 를 강력하게 추천하지만, 이 강의의 논리는 그다지 명확하지 않아 반복해서 보면 알 수 있다.
Ucsb 디지털 음성 처리 자습서, 사운드 신호 처리 기초 한번 보시기 바랍니다. 링크는 다음과 같습니다. /view/68fbf1a4f61fb7360b4c658b.html