음성 합성 개요

음성 합성은 전자컴퓨터와 일부 특수 설비를 이용하여 사람을 시뮬레이션하고 음성을 내는 기술이다. 음성 합성 및 음성 인식 기술은 인간-기계 음성 통신을 실현하고 듣기 및 말하기 능력을 갖춘 음성 언어 시스템을 구축하는 데 필요한 두 가지 핵심 기술입니다. 컴퓨터로 사람과 같은 말하기 능력을 갖게 하는 것은 정보산업의 중요한 경쟁시장이다. 음성 인식에 비해 음성 합성 기술이 상대적으로 성숙해 산업화에 성공하고 대규모 응용이 곧 다가올 것으로 보인다. (윌리엄 셰익스피어, 윈스턴, 음성, 음성, 음성, 음성, 음성, 음성, 음성, 음성)

음성 합성 (문어 변환 기술이라고도 함) 은 모든 텍스트 정보를 실시간으로 표준 유창한 음성으로 변환할 수 있어 기계에 인공 입을 설치하는 것과 같습니다. 음향, 언어학, 디지털 신호 처리, 컴퓨터 과학 등의 학과를 포괄하며 중국어 정보 처리 분야의 최첨단 기술이다. 해결해야 할 주요 문제는 텍스트 정보를 들을 수 있는 소리 정보로 변환하는 방법, 즉 기계가 사람처럼 말하게 하는 것이다. 우리가 말하는' 기계를 사람처럼 말하게 하라' 는 것은 전통적인 사운드 재생 장치 (시스템) 와 본질적인 차이가 있다. 녹음기와 같은 전통적인 사운드 재생 장치 (시스템) 는 사운드를 미리 녹음한 다음 재생하여 "기계가 말하게" 합니다. 이런 방식은 콘텐츠, 저장, 전송, 편리성, 시효성 등에 큰 한계가 있다. 컴퓨터 음성 합성을 통해 어떤 텍스트라도 언제든지 고자연도의 음성으로 변환할 수 있어 기계가' 사람처럼 말' 할 수 있게 한다. 텍스트 대 음성 변환 시스템은 실제로 인공지능 시스템으로 볼 수 있다. 고품질의 언어를 합성하려면 의미 규칙, 어휘 규칙, 음성 규칙 등 다양한 규칙에 의존하는 것 외에도 단어의 내용을 잘 이해해야 합니다. 여기에는 자연어에 대한 이해도 포함됩니다. 다음 그림은 텍스트 대 음성 변환 시스템의 전체 다이어그램을 보여 줍니다. 문어 변환 과정은 먼저 텍스트 시퀀스를 음운 시퀀스로 변환한 다음 음운 순서에 따라 음성 파형을 생성하는 것이다. 첫 번째 단계는 단어 세분화와 음성 변환, 그리고 효과적인 운율 제어 규칙과 같은 언어 처리에 관한 것입니다. 두 번째 단계는 고급 음성 합성 기술이 필요하며 필요에 따라 고품질 음성 스트림을 실시간으로 합성할 수 있습니다. 따라서 일반적으로 문어 변환 시스템은 텍스트 시퀀스에서 음소 시퀀스로의 복잡한 변환 프로그램이 필요합니다. 즉, 문어 변환 시스템은 디지털 신호 처리 기술뿐만 아니라 언어학 지식도 많이 지원해야 합니다.