음성 인식의 최신 개발

최근 몇 년 동안, 특히 2009 년 이후 기계 학습에서 심도 있는 학습 연구의 발전과 빅 데이터 어료의 축적으로 음성 인식 기술이 비약적으로 발전하였다.

1, 기술의 새로운 발전

1) 기계 학습 분야의 심도 있는 학습 연구를 음성 인식 음향 모델 교육에 도입하여 RBM 사전 훈련이 있는 다층 신경망을 사용하여 음향 모델의 정확도를 크게 높였습니다. 이와 관련하여 Microsoft 의 연구원들은 먼저 돌파구를 만들었다. 심도 신경망 모델 (DNN) 을 사용한 후 음성 인식의 오류율이 30% 감소한 것은 최근 20 년 동안 음성 인식 기술이 가장 빠르게 발전한 한 번이다.

2) 현재 대부분의 메인스트림 음성 인식 디코더는 제한된 상태 머신 (WFST) 기반 디코딩 네트워크를 채택하고 있으며, 언어 모델, 사전 및 음향 * * * 즐거움 단어 세트를 하나의 큰 디코딩 네트워크에 통합하여 디코딩 속도를 크게 높이고 음성 인식의 실시간 응용 프로그램을 위한 기반을 제공합니다.

3) 인터넷의 급속한 발전과 휴대폰 등 모바일 단말기의 보급에 따라 현재 여러 채널에서 대량의 텍스트 또는 음성 코퍼스를 얻을 수 있으며, 음성 인식에서 언어 모델 및 음향 모델 교육을 위한 풍부한 자원을 제공합니다. 공통된 대규모 언어 모델과 음향 모델을 구축하는 것이 가능해졌습니다. 음성 인식에서 교육 데이터의 일치성과 풍부함은 시스템 성능을 향상시키는 가장 중요한 요소 중 하나이지만, 어료의 표기와 분석은 장기간의 축적과 침전이 필요하다. 대규모 데이터 시대가 도래함에 따라 대규모 코퍼스 자원의 축적은 전략적 수준으로 높아질 것이다.

2. 기술의 새로운 응용

최근 음성 인식은 모바일 단말기에서 가장 인기가 많아 음성 대화 로봇, 음성 도우미, 대화형 도구가 속출하고 있다. 많은 인터넷 회사들은 음성 상호 작용이라는 새롭고 편리한 모델을 통해 고객층을 빠르게 점령하기 위해 인력, 물력, 재력을 투입하고 있습니다.

현재 애플의 시리는 외국에서 줄곧 선도적인 응용이다.

국내 HKUST 뉴스, Yunzhisheng, Shanda, Jietong Hua Sheng, 써우거우 음성 지원, Zidong 번역 기계, Baidu 음성 및 기타 시스템은 최신 음성 인식 기술을 사용하고 있으며 시장에서 다른 관련 제품도 직접 또는 간접적으로 유사한 기술을 내장하고 있습니다.