음성 인식의 ASR 기술 상식 +09- 12-06

ASR (자동 음성 인식), 자동 언어 인식, 언어를 텍스트로 자동 변환하는 과정은 사람의 귀와 비슷하다.

프로세스: 입력-인코딩-디코딩-출력

언어 인식 입력은 소리이며 컴퓨터에서 인식할 수 없는 아날로그 신호에 속하며 모델을 통해 디지털 신호로 변환하여 해당 특징을 추출해야 합니다. 인코딩할 때 사운드는 비디오에서 가장 작은 시간 단위를 가진 프레임과 비슷한 매우 작은 조각으로 잘립니다. 프레임 사이에 약간의 겹침이 있을 것이다.

각 프레임에 대해 인간의 청각에 대한 특정 MCFF 규칙에 따라 특징을 추출하여 다차원 벡터로 변환합니다. 벡터의 각 치수는 해당 프레임의 피쳐로 간주될 수 있습니다.

디코딩 과정은 결과 벡터를 문자로 변환하는 과정으로, 음향 모델과 언어 모델 두 가지 모델을 모두 사용합니다. 음향 모델은 특징 벡터를 단일 글자 (중국어 음성 성모와 운모) 로 변환하여 음소로 만드는 것이다. 언어 모델은 음위를 단어나 한자로 접합하는 것이다. 두 모델 모두 교육을 위해 많은 언어 데이터가 필요합니다.

전통적인 인식 방법: 숨겨진 마르코프 모델 (HMM)

엔드-투-엔드 인식 방법: DNN (deep neural network).

두 가지 인식 방법의 주요 차이점은 음향 모델입니다.

현재 중국어의 인식률은 97% 이상이며 이상적인 99% 와는 거리가 멀다.

《원거리》. 여기에는 세 가지 개념이 있습니다.

음성 활성화 감지, 음성 웨이크 업 및 마이크 어레이.

1) 음성 사전 감지 (VAD)

A) 요구 배경: 근거리 인식 장면 (예: 음성 입력기 사용 시) 사용자는 손으로 음성 키를 누른 다음 놓을 수 있습니다. 근거리 상황에서 신호 대 잡음비가 높고 신호가 선명하기 때문에 알고리즘은 간단하고 믿을 만하다.

그러나 원거리 인식 장면에서는 사용자가 손으로 장치를 만질 수 없습니다. 이때 소음이 비교적 커서 신호 대 잡음비가 급격히 떨어지므로 반드시 VAD 를 사용해야 한다.

B) 정의: 언제 음성이 있는지, 언제 음성이 없는지 결정합니다 (음소거).

후속 음성 신호 처리 또는 음성 인식은 VAD 가 가로채는 유효한 음성 단편에 대해 수행됩니다.

2) 음성 트리거

A) 수요 배경: 근거리 인식에서 사용자는 버튼을 클릭하여 직접 말할 수 있지만, 원거리 인식에서 VAD 는 사람 소리를 감지한 후 음성 각성이 필요하다. 이 AI (로봇) 의 이름을 불러 ta 의 주의를 끄는 것과 같다. 예를 들면 애플의' 하이시리', 구글의' OK Google'

B) 정의: 욕하는 것으로 이해되어 청자의 주의를 끌 수 있다.

VT 판단은 깨우기 (활성화) 단어이므로 후속 음성은 인식해야 합니다. 그렇지 않으면 인식되지 않습니다.

C) 난이도: 음성 인식은 원거리 또는 외야에서 클라우드에서 이루어지지만, 음성 깨우기는 기본적으로 현지에서 이루어지며 요구가 더 높다.

C. 1) 웨이크업 응답 시간. 푸성에 따르면, 전 세계 모든 스피커는 그들이 만든 에코 (Echo) 와 소야 스마트 스피커가 1.5 초를 제외하고는 모두 3 초 이상이다.

C.2) 저전력 소비. 아이폰 4S 에서 시리가 나왔지만 아이폰 6S 가 전원을 켜지 않고 직접' 헤시리' 를 불러 음성 깨우는 것을 허용하지 않았다. 이는 6s 에 음성 활성화를 위한 저전력 칩이 있기 때문이다. 물론, 알고리즘과 하드웨어는 조정되어야 하고, 알고리즘은 최적화해야 한다.

C.3) 각성 효과. 그것을 부를 때, 그것은 승낙하지 않는다. 이것은 누락이라고 하고, 그것을 부르지 않을 때, 그것이 튀어나와 말하는 것을 허황된 경이라고 한다. (알버트 아인슈타인, 언어명언) 위양성과 위음성 두 지표가 바뀌고 있다. 예를 들어, 깨우는 단어의 수가 많고, 오보가 적으며, 누락이 많다. 깨우는 단어의 수가 짧으면 오보가 줄어든다. 특히 한밤중에 갑자기 노래를 부르거나 이야기를 하면 특히 무섭다 ...

C.4) 각성 단어. 기술적으로 말하자면, 보통 적어도 3 음절이다. 예를 들어 "OK Google" 과 "Alexa" 에는 4 개의 음절이 있고 "hey Siri" 에는 3 개의 음절이 있습니다. 국내에 있는 스마트 스피커 (예: 소야) 는 깨우는 단어는' 소야소야' 이지만' 소야' 는 사용할 수 없다.

참고: 일반 제품 관리자 또는 업계 커뮤니케이션은 중국어 "음성 깨우기" 를 직접 말하는 반면, 약어 "VT" 는 기술자가 더 많이 사용할 수 있습니다.

3) 마이크 어레이

A) 수요 배경: 회의실, 실외, 쇼핑몰 등 복잡한 환경에서 소음, 반향, 사람 소리 간섭, 메아리 등 다양한 문제가 발생할 수 있습니다. 특히 원거리 환경에서는 픽업 마이크의 감도가 높아야 먼 거리에서 효과적인 오디오 진폭을 얻을 수 있고 근거리 환경에서는 소리 폭발을 실현할 수 없다 (폭이 극대화된 정확도를 초과함). 또한 가정 환경에서 벽 반사로 형성된 반향은 음성 품질에도 뚜렷한 영향을 미친다.

B) 정의: 음장의 공간 특성을 샘플링하고 처리하는 데 사용되는 일정 수의 음향 센서 (일반적으로 마이크) 로 구성된 시스템입니다.

C) 클라우드 중심.

예를 들어 지도 기능, POI (관심 지점) 데이터의 양이 많기 때문에 클라우드에서 직접 검색하는 것이 더 편리할 수 있습니다 ("집", "회사" 등 개인화된 장면이 아닌 경우). 예를 들어 사용자는 "우한 기차역에서 동부까지" 를 "우한 기차역에서 동호까지" 로 정정할 수 있다고 말한다.

회사가 홍보할 때 음성 인식률이 97%, 심지어 98% 에 달했다고 말할 수 있지만, 일반적으로 조용한 환경에서 근거리, 느리고, 세심하며, 또렷하게 발음해야 한다. 일부 실제 장면에서는 충분하지 않을 수 있습니다. 예를 들면-

1 예를 들어 비교적 쉽게 할 수 있다고 생각하는 번역 장면은 완전히 구비되지 않았다. 무대에서 시연하는 것은 하나의 일이고, 일반 사용자가 사용하는 것은 또 다른 일이다. 특히 일부 수직업계에서는 분야 지식이 잘못되기 쉽다. 또한, 그 가짜 기계의 동시 통행을 참고하세요.

2, 자동차

약 3 ~ 4 년 전, 우리는 자동차 장면의 언어 조수 demo 를 만들어 실제 장면에서 검증했습니다. 그 결과 차 안에서 음성 인식의 효과가 매우 좋지 않다는 것을 알게 되었다. 그리고 올해까지, 나는 차 안의 음성 상호 작용 시스템을 하는 제품 매니저를 인터뷰한 적이 있는데, 그들의 검수 측이 실제로 엄격한 테스트를 하지 않았다는 것을 알게 되었다. 왜냐하면 모두가 알고 있기 때문이다. 절대 통과하지 못할 것이기 때문이다. 。 。

자동차 음성 인식에는 많은 어려움이 있습니다. 많은 사람들이 말하는 간섭 외에도 타이어 소음, 바람 소음, 자주 오프라인 상태가 됩니다.

자동차 소음 감소를 전문으로 하는 회사도 있고 스마트 하드웨어를 통해 해결하려는 회사도 있다고 한다. 적어도 현재로서는 어떤 제품도 이 문제를 해결하지 못한 것 같아 사용자들의 호평을 받고 있다.

3, 가족 장면, 상대적으로 조용하고 통제할 수 있기 때문에, 먼 곳이 잘 되면 희망이 있다.

4. 중국어와 영어가 혼합되어 있습니다.

특히 노래를 듣는 장면에서는 사용자가 영어 노래를 듣고 싶다고 하면 실수를 쉽게 식별할 수 있다. 이 점에서 푸성의 소야 스피커만 많은 최적화가 이루어져서 사용자 테스트가 필요하다고 합니다.

결론적으로 ASR 은 현재 AI 분야에서 상업화되고 성숙한 기술에 가장 가깝지만, 구체적인 시나리오에서는 여전히 사용자가 AI 에 협조해야 한다. 이게 문제인가요? 그것은 문제이지만 실제로 제품 데모 및 초기 제품 작업에 영향을 미치지 않으므로 AI 제품 관리자가 수행 할 수있는 기회입니다.

1, 원거리 음성 인식은 최근 2 년 동안 중요한 경쟁 분야입니다. 가족 (스피커) 과 같은 장면이 잘 되어 숙련되고 있기 때문이다.

2. 비교적 좋은 기회는 사투리 (사투리 식별은 40 여 종, 바이두는 20 여 종) 와 특정 인구 (어린이) 를 겨냥한 음향 매칭 방안과 같은 수직 세분화 분야에 있다.

마지막으로, 인간-컴퓨터 상호 작용에서 음성 인식의 몇 가지 어려움을 그림으로 요약했습니다.