음성 합성 기술

하나? 음성 합성 기술 원리

음성 테스트 (TTS 라고 함). 문자를 음성으로 변환하는 기술로, 사람의 입과 비슷하며, 다른 음색을 통해 표현하고 싶은 것을 표현한다.

음성 합성 기술에서는 주로 언어 분석 부분과 음향 시스템 부분, 즉 프런트 엔드 부분과 백 엔드 부분으로 나뉩니다. 언어 분석 섹션은 주로 입력된 텍스트 정보를 분석하고, 해당 언어 사양을 생성하고, 읽는 방법에 대해 생각하는 것입니다. 오디오 시스템 섹션은 주로 음성 분석 섹션에서 제공하는 음성 사양에 따라 적절한 오디오를 생성하여 발성 기능을 구현합니다.

1. 언어 분석 섹션

언어 분석 섹션의 흐름도는 다음과 같습니다. 언어 분석 섹션의 주요 작업을 간략하게 설명할 수 있습니다.

텍스트 구조와 언어 판단: 합성할 텍스트를 입력할 때 중국어, 영어, 티베트어, 위구르어 등 어떤 언어인지 판단해야 합니다. 그런 다음 해당 언어의 문법 규칙에 따라 전체 텍스트를 개별 문장으로 분할하고 분할된 문장을 사후 처리 모듈에 전달합니다.

텍스트 표준화: 합성할 입력 텍스트에 문자로 변환해야 할 아라비아 숫자나 문자가 있습니다. 설정된 규칙에 따라 작성된 텍스트를 표준화합니다. 예를 들어, "당신은 꼬리 번호 8967 의 주인입니까? 클릭합니다 "8967" 은 아라비아 숫자로, 한자 "8967" 로 변환하여 후속 발음 등을 용이하게 해야 한다. 또 다른 예로, 아까' 8967' 이라는 단어가 왜' 8967' 로 번역되지 않았나요? 문자 표준화 규칙에서 "접미사+숫자" 의 형식 규칙이 설정되어 있기 때문에 이 경우 숫자가 이렇게 방송됩니다. 이것은 텍스트 표준화의 규칙 세트입니다.

텍스트 음성 변환: 중국어 음성 합성에서 텍스트는 기본적으로 병음으로 표기되어 있으므로 텍스트를 해당 병음으로 변환해야 하지만 일부 단어는 다음자입니다. 현재 어떤 발음인지 어떻게 구분할 수 있는지, 분사와 어성구문 분석을 통해 현재 어떤 발음인지, 그리고 몇 개의 성조가 있는지 판단해야 한다.

예를 들어' 남경장강대교' 는' 남 2 경 1 시 4 장 3 강 1 da4 다리 2' 또는' 남경장강대교',' 남 2 경 1 시 4 창 2 강/이다

독구 운율 예측: 인간은 언어를 표현할 때 항상 감정과 감정을 동반한다. TTS 합성 오디오는 실제 사람 소리를 모방하기 때문에 텍스트의 운율, 일시 중지 위치, 일시 중지 시간, 어떤 단어나 구를 다시 읽어야 하는지, 어떤 단어를 가볍게 읽어야 하는지 등을 예측해야 한다. 소리의 우여곡절, 억양, 억양을 실현합니다.

2 오디오 시스템 섹션

현재 음향 시스템은 파형 접합, 매개변수 합성 및 종단 간 음성 합성 기술의 세 가지 주요 구현 방법을 가지고 있습니다.

1)? 파형 접합 음성 합성

대량의 오디오를 사전 녹음함으로써 가능한 모든 음절과 음소를 완벽하게 포괄하고 통계 규칙에 기반한 대형 코퍼스를 해당 텍스트 오디오로 접합하여 파형 접합 기술은 기존 라이브러리의 음절을 접합하여 음성 합성을 가능하게 합니다. 일반적으로 이런 기술은 대량의 녹음이 필요하며, 녹음 볼륨이 클수록 효과가 좋다. 일반적으로 잘 만들어진 음고, 녹음량은 모두 50 시간 이상이다.

장점: 음질이 좋고 감정이 진실하다.

단점: 녹음량이 많고, 커버 요구가 높으며, 단어와 단어 사이의 시너지 전환이 무뚝뚝하고, 균일하지 않고, 부자연스럽다.

2)? 매개 변수 음성 합성 기술

매개변수 합성 기술은 주로 기존 녹음의 스펙트럼 피쳐 매개변수를 수학적으로 모델링하고 텍스트 시퀀스와 음성 피쳐 간의 매핑을 구축하여 매개변수 합성기를 생성하는 것입니다. 따라서 텍스트를 입력할 때 먼저 문자 시퀀스를 해당 오디오 특성에 매핑한 다음 음향 모델 (보코더) 을 통해 오디오 기능을 이해할 수 있는 사운드로 변환합니다.

장점: 녹음 볼륨이 작고 다양한 음색을 함께 훈련할 수 있으며, 글자와 글자 사이의 조화가 원활하고 자연스럽다.

단점: 음질은 파형 접합만큼 좋지 않고, 기계감이 강하며, 소음이 크다.

3)? 엔드-투-엔드 음성 합성 기술

종단간 음성 합성 기술은 현재 비교적 인기 있는 기술이다. 신경망 학습을 통해 문자나 병음 문자를 직접 입력할 수 있다.

중간은 블랙박스 부분이고 합성된 오디오를 출력하여 복잡한 언어 분석 부분을 크게 단순화합니다. 그 결과, 종단간 음성 합성 기술은 언어학 지식에 대한 요구를 크게 줄이고, 여러 언어의 음성 합성을 실현할 수 있으며, 더 이상 언어학 지식의 제한을 받지 않는다. (윌리엄 셰익스피어, 언어, 언어, 언어, 언어, 언어, 언어, 언어) 오디오의 엔드-투-엔드 합성을 통해 효과는 더욱 최적화되고 사운드는 실제 사람에 더 가깝습니다.

장점: 언어학 지식에 대한 요구를 낮추고, 합성된 오디오는 더욱 의인화되고, 효과가 좋고, 녹음 부피가 작다.

단점: 성능이 크게 떨어져서 합성된 오디오는 인위적으로 조율할 수 없다.

이상은 주로 음성 합성 기술의 원리에 대한 간단한 소개이자 현재 음성 합성의 주류 응용 기술이다. 오늘날의 기술도 wavenet, Tacotron, Tacotron2, deepvoice3 과 같은 반복적인 업데이트를 하고 있습니다. 이 모든 것이 인기 있는 엔드 투 엔드 기술입니다. 관심 있는 친구는 독학할 수 있다.

둘? 기술 경계

현재 음성 합성 기술은 위에서 언급한 각종 방송 장면, 소설 읽기, 뉴스 보기, 현재 유행하는 인간-컴퓨터 상호 작용 등 비교적 성숙했다. 그러나, 현재의 음성 합성 시스템에는 여전히 몇 가지 문제가 있다.

1 .. 아바타

사실 지금의 TTS 의인화 수준은 이미 높지만 업계 인사들은 일반적으로 합성음인지 아닌지 알아들을 수 있다. 합성음의 전체 리듬은 실물보다 훨씬 나쁘기 때문이다. 실제 사람의 목소리는 숨결과 감정으로 가득 차 있다. TTS 합성 오디오 사운드는 실제 사람에 가깝지만 전체 리듬은 안정적이며 텍스트 내용에 따라 크게 변동하지 않습니다. 개별 단어에도 기계감이 있을 수 있습니다.

감정화

진실한 사람이 말을 할 때, 그는 현재의 감정 상태를 느낄 수 있다. 언어를 표현할 때, 그는 목소리를 통해 그 사람이 행복한지 우울한지 알 수 있으며, 표현의 내용과 결합하여 구체적인 감정 상태를 전달할 수 있다. 하나의 TTS 음창고는 할 수 없다. 예를 들어 소설을 보면 소설에는 많은 장면과 다른 감정이 있을 수 있지만 TTS 합성의 오디오는 비교적 안정적이어서 큰 기복이 없다. 현재 최적화되는 방법에는 두 가지가 있습니다. 하나는 배경음악을 추가하고, 장면마다 다른 배경음악을 사용하며, 합성음의 감정감을 약화시켜 배경음을 분위기를 부각시키는 것입니다. 둘째, 다양한 감정에서 합성음고를 만들어 다른 장면에서 다른 음라이브러리 합성오디오를 호출할 수 있다.

사용자 정의

현재 우리는 음성 합성기가 합성한 오디오를 들었는데, 전반적인 효과는 여전히 좋다. 많은 고객은 직원의 목소리로 음성 라이브러리를 만드는 것과 같은 맞춤형 요구 사항을 가지고 있습니다. 음성 합성기와 같은 효과를 내기 어렵다. 현재 음성 합성기의 녹음사는 기본적으로 전문 아나운서이며, 누구나 음고를 만드는 기준을 달성할 수 있는 것은 아니다. 만약 기술이 모든 사람의 목소리의 85% 이상을 복원할 수 있다면, 이것은 적용된다.

셋째, 효과 지표 및 기술 지표

음성 합성 기술이 발달하면서 음성 합성은 이미 생활의 다양한 장면에 적용되었고, 음성 합성 기술의 응용은 이미 실현되었다. 예를 들어 고속철도, 공항의 음성 방송, 병원 호출 서비스, 그리고 지금 뜨거운 음성 상호 작용 제품 등이 있습니다. 음성 합성의 다양한 응용은 그것이 기술일 뿐만 아니라 제품이라는 것을 보여준다. 제품으로서 어떤 지표로 이 제품을 측정할 수 있습니까?

다음은 TTS 제품을 측정하는 두 가지 지표인 유효성 지표와 성능 지표를 설명합니다.

1 ..? 효과 지수

1)? MOS 값

-응? 현재 TTS 합성 효과의 평가 기준은 업계에서 만장일치로 인정한 mos 값 테스트입니다. 1-5 사이에서 평균적인 최종 점수를 얻은 업계 전문가를 찾아 합성된 사운드를 평가했습니다. 이것이 바로 mos 값 테스트입니다. 이는 주관적인 평점이며 구체적인 평점 기준이 없고, 음색에 대한 개인의 선호도, 합성 오디오 콘텐츠 장면에 대한 파악, 음성 합성에 대한 이해에 강한 상관관계가 있어 다른 사람이 다른 견해를 가지고 있는 테스트 방법으로 볼 수 있다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 음성 합성에 대한 이해, 음성 합성에 대한 이해, 음성 합성에 대한 이해)

TTS 합성 효과에 대한 주관적 평가로 일부 항목의 검수에서 구체적인 검수 기준을 명확히 할 수 없다. 예를 들어, 사용자 정의 사운드 라이브러리 프로젝트를 통해 고객은 고유한 사용자 정의 사운드 라이브러리를 만들고 싶어합니다. 최종 수용은 고객이 합성된 오디오에 만족하는 것이 분명하므로 수용이 성공합니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 예술명언) 이것은 매우 주관적인 기준이다. 어떻게 만족할 수 있습니까? TTS 제조사에게 이것은 불공평하다. 따라서 프로젝트가 더 잘 받아들여질 수 있도록 수량화할 수 있는 기준을 찾아야 하며, 쌍방도 합성효과로 인해 의견 차이가 생기지 않을 것이다. 음성 합성의 효과를 정량화하고 원본 녹음과 합성 오디오에 대해 각각 블라인드 평가 (mos 값 테스트) 를 하는 검수 기준을 추천합니다. 합성오디오의 mos 값이 원래 녹음의 85% 이상에 이를 수 있는 경우 (이 값은 프로젝트 상황에 따라 결정될 수 있음) 수용 기준을 결정하고 수량화할 수 있습니다. 물론, 점수팀은 고객과 TTS 업체의 사람이 될 수도 있고, 공정성을 보장하기 위해 제 3 자 사람들을 초청하여 점수를 매길 수도 있다.

Mos 값은 주관적인 테스트 방법이지만 몇 가지 판단 기준이 있습니다. 예를 들어 합성오디오에서 다음자의 발음, 현재 장면의 숫자 방송 방식, 영어의 방송 방식, 리듬 방면, 단어가 함께 방송되는지 여부, 다시 읽어야 할 곳에 강세가 있는지 여부, 멈춤이 합리한지 여부, 음색이 현재 장면에 부합하는지 여부는 모두 점수의 근거가 될 수 있다.

간단한 채점 기준을 공유하여 참고할 수 있다.

2)? ABX 평가

-응? 합성효과 비교 테스트, 같은 장면에서 같은 문자와 음색을 선택하고, 다른 TTS 시스템으로 합성하고, 어떤 합성효과가 더 좋은지, 주관적인 판단이지만, 어느 TTS 가 현재 장면에 더 잘 맞는지, 합성효과가 더 좋다.

2. 성과 지표

1) 실시간 속도

음성 합성에서 합성 방법은 비스트리밍 합성과 손실 합성으로 나뉜다. 무손실 합성이란 한 번에 텍스트를 입력하고 한 번에 합성된 텍스트와 오디오를 반환하는 것을 말합니다. 스트리밍 합성은 텍스트가 TTS 로 전송될 때 TTS 가 합성된 오디오를 세그먼트화하여 음성 합성의 대기 시간을 줄이는 동시에 합성하는 것을 의미하며, 전체 오디오가 합성될 때까지 기다릴 필요가 없기 때문에 음성 합성 시간의 한 지표는 실시간 속도입니다. 실시간 속도는 텍스트 합성에 필요한 시간을 텍스트 합성에 필요한 총 오디오 시간으로 나눈 것과 같습니다. 다음은 실시간 비율 계산 공식입니다.

왜 실시간 속도는 무손실 합성과 스트리밍 합성에 대해 이야기해야 합니까? 스트리밍 합성 장면에서는 합성이 시작될 때 이미 방송을 시작하고 오디오 합성이 완료되면 방송이 완료되므로 기다리는 과정이 없습니다. 이 과정은 주로 음성 상호 작용 장면에서 사용됩니다. 지능형 로봇이 음성 신호를 받으면 사용자가 너무 오래 기다리지 않고 바로 답변을 줄 수 있다. 따라서 최상의 사용자 경험을 위해 "텍스트 합성에 필요한 시간" 은 "텍스트 합성에 필요한 오디오 시간" 보다 작거나 같아야 합니다. 즉, 실시간 속도는 1 보다 작거나 같아야 합니다.

2) 첫 번째 패킷의 응답 시간

스트리밍 합성에서 세그먼트 오디오는 클라이언트 또는 재생 시스템으로 전송되며 첫 번째 오디오를 합성하는 데 시간이 필요합니다. 이를 "첫 번째 패킷 응답 시간" 이라고 합니다. 왜 이번에는 계산해야 합니까? 음성 상호 작용에서는 프로젝트 경험과 사람의 감당력에 따라 사용자가 말을 마치면 로봇이 1200ms 내에서 답변을 방송하기 시작하므로 빈 시간과 정지가 발생하지 않습니다. 시간이 1200ms 를 초과하면 대기 시간이 있을 수 있고, 사용자 경험이 좋지 않아 귀찮은 사용자가 채팅을 중지할 수 있습니다. 1200ms 의 시간은 TTS 음성 합성의 첫 번째 패킷 시간이자 ASR (음성 인식) 및 NLU (자연어 이해) 에 소요되는 시간이므로 TTS 첫 패킷의 응답 시간을 500ms 이내로 제어하여 ASR 과 NLU 가 더 많은 시간을 갖도록 해야 합니다.

3) 동시 수

인공지능의 발전에는 주로 알고리즘, 컴퓨팅 능력, 데이터의 세 가지 측면이 있다. 실제로 성능 지표는 컴퓨팅 능력과 같습니다. 현재 컴퓨팅 성능을 호스팅하는 서버에는 CPU 서버와 GPU 서버가 있습니다. 앞서 언급했듯이 실시간 속도라는 지표는 1 보다 작다면 실시간 속도가 1 보다 훨씬 작으면 서버를 낭비하지 않습니다. 실시간 속도가 1 보다 작거나 같으면 사용자의 요구를 충족하고 사용자 경험을 향상시킬 수 있기 때문입니다. 따라서 위에서 언급 한 실시간 속도는 단일 코어 단일 스레드 CPU 서버 또는 단일 카드 단일 스레드 GPU 에 대한 것입니다. 실시간 속도의 공식은 다음과 같습니다.

자원 활용을 극대화하기 위해 실시간 속도가 1 에 가깝거나 1 과 같음을 보장하기만 하면 됩니다. 1 보다 훨씬 작을 필요는 없습니다. 따라서 싱글 코어 단일 스레드의 실시간 속도가 1 보다 훨씬 작을 경우 1, 2, 3 줄의 스레드 수를 구현할 수 있으므로 실시간 속도는 1, 일핵의 "2 선" 이 됩니다. 그럼 이 동시성은 어떻게 계산할까요? 예를 들어 싱글 코어 단일 스레드 동시성은 0. 1 이고, 싱글 코어 10 스레드의 동시성은 1 이며, 이 동시성으로 고객에게 제공할 수 있습니다. 따라서 동시 계산 공식은 다음과 같습니다.

따라서 사용자가 200 스레드 음성 합성 동시성이 필요한 경우 실시간 속도가 0. 1, 1 코어 10 줄, 20 코어만 있으면 고객에게 24 코어 CPU 서버를 요청하여 고객의 요구를 충족하고 비용을 절감할 수 있습니다.

이 스레드와 동시성의 개념에 대해 이야기 해 봅시다. 스레드와 동시성은 동일한 개념입니다. 예를 들어, 200 줄의 동시성은 200 줄의 음성 합성을 동시에 지원해야 한다는 것입니다. 200 줄은 동시에 오디오를 합성하며, 합성된 내용은 동일하거나 다를 수 있습니다.

4)? 100 자를 합성하는 데 얼마나 걸립니까 (1s 는 몇 자를 합성할 수 있습니까)?

일부 고객은 실시간 속도와 응답 시간에 대한 개념이 모호하다. 그들은 100 자를 합성하는 데 얼마나 걸리는지, 1 얼마나 많은 글자를 합성할 수 있는지 물어보기 때문에, 이때 고객과의 소통을 용이하게 하기 위해 100 자 TTS 를 합성하는 데 걸리는 시간을 알아야 한다. 이 데이터는 대략 계산해 낼 수 있으며, 물론 100 단어의 소요 시간을 직접 테스트할 수도 있다. 여기서는 주로 계산 방법에 대해 이야기한다.

정상 재생 속도에 따라 1 초에 네 글자 정도 재생될 수 있다면, 우리는 네 글자로 계산할 수 있다. 100 자의 오디오 길이는 약 25s( 100 을 4 로 나눈 값) 이다. 실시간 속도가 0. 1 인 경우 현재 실시간 속도로 공식을 계산하면 합성 시간이 2.5s 인 경우에도 계산할 수 있습니다.

음성 합성 제품과 관련된 몇 가지 매개변수와 지표를 간략하게 소개하고, CPU 사용량, 메모리 사용량, DPS (단위 시간 내 총 오디오 합성 시간), TPS (단위 시간 내 합성된 오디오 작업 수), TP99 등 테스트 시 알아야 할 몇 가지 지표와 데이터를 간략하게 소개합니다. 관심 있는 친구는 알아보고 연구할 수 있다. 이 데이터는 프로젝트 POC 또는 TTS 제품 전체의 테스트에도 주로 사용되며 TTS 제품에 대한 전반적인 인식으로 볼 수 있습니다.

넷? 음성 합성 제조업체

음성 합성 기술을 보유한 업체들, 인터넷 거물, 인공지능에만 집중하는 기업들도 많다.

HKUST 는 HKUST 가 비행 한 음성 합성 기술도 세계 최고 중 하나이며, 합성 된 오디오 효과는 자연스럽게 높습니다. 홈페이지, HKUST 는 가장 큰 오디오 라이브러리를 가지고 있으며, 많은 장면과 많은 외국 음성 라이브러리가 관련되어 있다.

알리바바는 공식 홈페이지의 음고, 아리운, 아이사와 같은 훌륭한 음고가 몇 개 있다. 합성된 오디오는 호흡처럼 재생되며 의인화 정도가 상당히 높다.

바이두 바이두의 음성 합성 기술은 여전히 강하지만 공식 홈페이지가 주는 합성음고는 비교적 적어 판단하기 어렵다.

Banling 기술은 음성 합성 분야에서 무시할 수없는 회사입니다. Banling 사운드 라이브러리의 사운드 합성도 매우 좋습니다. 동북 아저씨의 음고가 있는데, 주로 동북 방언이다. 전체 리듬, 정지, 스트레스 등이 모두 잘 파악되어 있습니다.

베컴 테크놀로지와 밴링 테크놀로지와 마찬가지로 음성 합성 분야에서 만만치 않은 두 회사다. TTS 합성의 음향 의인화 정도가 높고 각 장면의 풍격이 실감나기 때문이다. (윌리엄 셰익스피어, 윈스턴, 과학명언) (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), 과학명언

체코 화성 () 은 화성 () 을 빠르게 통화성 () 하는 오래된 인공 지능 기업으로, 전체 합성 오디오 효과가 좋고 다국어 음고를 지원한다.

또 다른 기업들은 일일이 열거하지 않았다. 이들 기업은 평소 프로젝트에 있거나 많은 기업들이 TTS 기술을 적용하고 있기 때문이다.

동사 (verb 의 약어) 요약

현재 음성 합성은 이미 다양한 장면에 적용되어 착지할 수 있는 성숙한 제품이다. 합성 음성의 요구에 대하여, 현재의 기술은 이미 시장의 대부분의 수요를 만족시키기 위해 잘 할 수 있다. (윌리엄 셰익스피어, 윈스턴, 음성, 음성, 음성, 음성, 음성, 음성, 음성) 음성 합성 기술은 주로 사람의 목소리와 같은 오디오를 합성하는 것이지만, 실제로 현재의 기술은 이미 완전히 만족했다. 현재 문제는 서로 다른 디지털 읽기 방식, 현재 장면이 어떤 재생 모드여야 하는지 지능적으로 판단하는 방법, 어떤 음조와 감정이 현재 장면에 더 적합한지, 합성된 오디오를 최대한 잘 구분할 수 있는 방법 등 다양한 장면의 구체적인 요구 사항을 실현하는 것입니다. 물론, 실수는 불가피할 때도 있지만, 어떻게 내결함성의 범위 내에 있거나, 혹은 잘못 읽은 후에 좋은 자습 메커니즘이 있는지, 다음 방송에서 정확하게 읽을 수 있게 하고, 스스로 오류를 수정할 수 있는 능력을 가지고 있다. 이것들은 현재 상품화가 직면한 비교적 실제적인 문제일 수 있으며, 이것들은 모두 제품 전체 설계에서 고려해야 할 주요 문제이다.

다음은 실제 장면에서 발생하는 주요 문제와 해결 방법에 대해 설명합니다.