음성 합성 (문어 변환 기술이라고도 함) 은 모든 텍스트 정보를 실시간으로 표준 유창한 음성으로 변환할 수 있어 기계에 인공 입을 설치하는 것과 같습니다. 음향, 언어학, 디지털 신호 처리, 컴퓨터 과학 등의 학과를 포괄하며 중국어 정보 처리 분야의 최첨단 기술이다. 해결해야 할 주요 문제는 텍스트 정보를 들을 수 있는 소리 정보로 변환하는 방법, 즉 기계가 사람처럼 말하게 하는 것이다. 우리가 말하는' 기계를 사람처럼 말하게 하라' 는 것은 전통적인 사운드 재생 장치 (시스템) 와 본질적인 차이가 있다. 녹음기와 같은 전통적인 사운드 재생 장치 (시스템) 는 사운드를 미리 녹음한 다음 재생하여 "기계가 말하게" 합니다. 이런 방식은 콘텐츠, 저장, 전송, 편리성, 시효성 등에 큰 한계가 있다. 컴퓨터 음성 합성을 통해 어떤 텍스트라도 언제든지 고자연도의 음성으로 변환할 수 있어 기계가' 사람처럼 말' 할 수 있게 한다. 텍스트 대 음성 변환 시스템은 실제로 인공지능 시스템으로 볼 수 있다. 고품질의 언어를 합성하려면 의미 규칙, 어휘 규칙, 음성 규칙 등 다양한 규칙에 의존하는 것 외에도 단어의 내용을 잘 이해해야 합니다. 여기에는 자연어에 대한 이해도 포함됩니다. 다음 그림은 텍스트 대 음성 변환 시스템의 전체 다이어그램을 보여 줍니다. 문어 변환 과정은 먼저 텍스트 시퀀스를 음운 시퀀스로 변환한 다음 음운 순서에 따라 음성 파형을 생성하는 것이다. 첫 번째 단계는 단어 세분화와 음성 변환, 그리고 효과적인 운율 제어 규칙과 같은 언어 처리에 관한 것입니다. 두 번째 단계는 고급 음성 합성 기술이 필요하며 필요에 따라 고품질 음성 스트림을 실시간으로 합성할 수 있습니다. 따라서 일반적으로 문어 변환 시스템은 텍스트 시퀀스에서 음소 시퀀스로의 복잡한 변환 프로그램이 필요합니다. 즉, 문어 변환 시스템은 디지털 신호 처리 기술뿐만 아니라 언어학 지식도 많이 지원해야 합니다.
음성 합성 개요
음성 합성은 전자컴퓨터와 일부 특수 설비를 이용하여 사람을 시뮬레이션하고 음성을 내는 기술이다. 음성 합성 및 음성 인식 기술은 인간-기계 음성 통신을 실현하고 듣기 및 말하기 능력을 갖춘 음성 언어 시스템을 구축하는 데 필요한 두 가지 핵심 기술입니다. 컴퓨터로 사람과 같은 말하기 능력을 갖게 하는 것은 정보산업의 중요한 경쟁시장이다. 음성 인식에 비해 음성 합성 기술이 상대적으로 성숙해 산업화에 성공하고 대규모 응용이 곧 다가올 것으로 보인다. (윌리엄 셰익스피어, 윈스턴, 음성, 음성, 음성, 음성, 음성, 음성, 음성, 음성)