음성 인식 시스템의 네 가지 주요 부분은 무엇입니까?

완전한 음성 인식 시스템은 일반적으로 신호 처리 및 피쳐 추출, 음향 모델, 음성 모델 및 디코딩 검색의 네 가지 모듈로 구성됩니다.

음성 인식 기술 (Speech recognition technology) 은 기계가 인식과 이해를 통해 음성 신호를 해당 텍스트나 명령으로 변환할 수 있도록 하는 첨단 기술입니다. 음성 인식 기술은 주로 피쳐 추출 기술, 패턴 일치 지침 및 모델 교육 기술을 포함합니다.

기능적 특징

1, 주로 중소어휘 음성 인식 시스템, 즉 10~ 100 만 인식할 수 있는 단어입니다. 최근 1 ~ 2 년 사이에 연속 숫자나 연속 알파벳 음성 인식을 위한 전용 칩이 생겼습니다.

2. 일반적으로 특정 사람에 대한 음성 인식으로 제한됩니다. 즉, 사용자가 인식된 단어의 인식 기능을 먼저 배우거나 훈련시켜야 하며 언어, 방언, 단어에 제한이 없습니다. 일부 칩은 화자와 무관한 음성 인식도 가능하게 한다. 곧 인식할 문장의 코드북을 미리 훈련시켜 칩에 로드하여 사용자가 배우지 않고도 직접 사용할 수 있다.

이 칩은 완전한 음성 인식 시스템을 구성합니다. 따라서 음성 인식 기능 외에도, 좋은 인간-기계 인터페이스를 갖추기 위해서는 인식이 정확한지 확인하기 위해 시스템에 음성 힌트 (음성 합성) 및 음성 재생 (음성 코덱 녹음) 기능도 있어야 합니다.

4. 대부분 실시간 시스템입니다. 즉, 사용자가 인식할 문자를 완성하면 시스템은 즉시 인식 기능을 완료하고 응답하여 회로의 연산 속도에 대한 요구가 높습니다.

5. 가능한 한 좋은 식별 성능 외에도 가능한 한 작고, 높은 신뢰성, 저전력, 저렴한 가격이 필요합니다.

위 내용을 참고하시겠습니까? 바이두 백과-음성 인식 기술

上篇: Shu Han 베테랑 Huang Zhong에 대한 간략한 소개 Huang Zhong은 어떻게 죽었습니까? 下篇: 시몬첼리의 헬멧은 어떻게 된 거야?