음성 구름 Baidu 음성 오픈 소개

Baidu 는 음성 핵심 기술의 장기적인 축적으로 개발자에게 업계 최고의 음성 기술 서비스를 제공합니다. 바이두 음성 기술은 이미 많은 자체 제품에 적용되었다. 10 년 6 월 25 일 바이두는 대외개방음성기술을 공식 발표했다. 바이두 음성 기술 서비스를 통해 개발자는 강력한 음성 기술 기능을 쉽게 이용할 수 있으며, 복잡한 기술 세부 사항을 버리고 비즈니스 논리 최적화에 집중하며 다양한 음성 상호 작용 애플리케이션을 신속하게 구축할 수 있습니다. 개발자는 바이두 개발자 센터에서 자신의 음성 앱 개발을 신청할 수 있다.

영구 무료 깊이 사용자 정의

20 13 년 8 월 22 일 바이두 세계대회에서 바이두는 음성 인식 기술과 능력을 전면 개방한다고 발표했다. 바이두의 지도 아래 음성 인식을 둘러싼 새로운 체계와 빅 데이터 생태가 모바일 인터넷 분야에서 본격적으로 빛을 발하기 시작했다. 두 달 만에 바이두 음성 인식 SDK 가 공식 발표됐다. 이는 애플리케이션 개발자를 가장 끌어들이는 것이다. 개발자에게 긴 텍스트 음성 입력, 음성 검색어 인식, 수직 영역 인식 등 다양한 음성 인식 서비스를 제공할 수 있습니다. 또한 음성 인식 SDK 는 사용자가 음성을 입력하는 동안 사용자에게 연속적인 중간 결과를 반환하여 사용자 경험을 향상시킬 수 있는' 최대한 빨리 말하기' 기술을 지원합니다. 가장 매력적인 것은 Baidu 가 다른 유사한 음성 인식 기술에 비해 개발자에게 전체 음성 생태계를 무료로 개방하고 다양한 응용 프로그램에 대한 심층적 인 사용자 정의를 지원한다는 것입니다.

Baidu 음성 인식 SDK 가 방금 배포되기 시작했고 레인보우 버스를 포함한 많은 모바일 앱과 협력하고 있는 것으로 알려졌다. 영구 무료' 와' 심도 있는 맞춤형' 의 협력 이념을 통해 개발자의 호평을 받았다. 앞으로 바이두는 애플리케이션 개발자에게 의미 이해, TTS (음성 합성) 등 다양한 서비스를 계속 개방할 예정이며, 사용자 맞춤형 음성 인식 지원을 포함해 개발자가 자신의 음성 애플리케이션을 맞춤형으로 구성할 수 있도록 지원할 예정이다.

바이두 음성 오픈 플랫폼은 사용자에게 더 많은 편리함을 제공하고, 사용자가 두 손을 해방시키고, 진정으로 완전한 음성 조작을 실현할 수 있게 해 줄 것이다. 더 많은 모바일 개발자들이 기술 진보로 인한 배당금을 누리고 즐거운 창업의 길을 걷게 할 수도 있다.

각 길의 거물과 바이두 음성 심도 있는 협력.

포드 자동차는 이렇게 말했습니다.

첫째, 포드 자동차는 자동차 회사일 뿐만 아니라 소비자를 위한 흥미롭고 안전한 운전 경험을 만드는 기술 회사이기도 합니다. 조사에 따르면 모바일 여행은 점점 더 중요한 생활과 업무 방식이 되고 있으며, 이동 중 이동통신에 대한 스마트 오피스에 대한 수요도 점점 다양해지고 있는 것으로 나타났다. 포드는 MyFord Touch 의 기능을 지원하는 SYNC 자동차 멀티미디어 통신 및 엔터테인먼트 시스템을 개발했습니다. 이 지능형 상호 연결 시스템을 통해 운전자는 음성 지시만 거치면 차 안의 비디오 엔터테인먼트, 온도 조절 등의 기능을 쉽게 제어할 수 있다. 이를 바탕으로 우리는 중국 시장을 위해 SYNC 를 출시했다. 앱링크? 스마트폰 앱과 앱링크가 장착된 차량 간의 연결성을 높인다. 이런 식으로 AppLink 를 통해 주인은 스마트폰을 자동차에 연결하고 운전석에서 포드 SYNC 음성 명령 연결 시스템을 사용하여 스마트폰의 앱을 제어할 수 있다.

우리가 이번에 바이두와 합작하는 목표는 사용자가 운전을 하면서 바이두의 강력한 음성 앱을 통해 외부와의 원활한 연결을 실현하면서 동시에 눈을 노면을 응시하고 핸들을 잡을 수 있도록 하는 것이다. (존 F. 케네디, Northern Exposure (미국 TV 드라마), 스포츠명언) 만약 이 조각을 잘 할 수 있다면, 미래에 상상할 수 있는 공간이 매우 클 것이다. 예를 들어, 나는 다른 도시로 차를 몰고 갔는데, 이 도시의 현재 날씨는 어떻습니까? 바이두와의 협력을 통해 우리는 라디오를 듣거나 주차하지 않고 날씨 앱을 열어 조회할 필요 없이 직접 음성 조회를 할 수 있다. 비슷한 장면이 많고 두 업계의 끊임없는 충돌과 혁신이 필요하다.

중흥 휴대전화는 다음과 같이 말했다.

세계 최대 휴대전화 단말기 업체 중 하나인 중흥통신은 최종 목표가 사용자를 위한 완벽한 경험을 만드는 것이라고 항상 믿고 있다. 이번에 우리가 만들고자 하는 제품은 운전 사용자를 위해 특별히 고안된 것이다. 이 제품의 최종 목적은 사람들이 자동차 환경에서 휴대전화 조작의 핸즈프리를 실현할 수 있기를 희망하고, 자동차 환경에서 자주 사용하는 휴대전화 기능은 모두 음성 제어를 통해 이뤄질 수 있도록 하는 것이다.

Dell 은 파트너에 대한 두 가지 요구 사항을 가지고 있습니다. 하나는 음성 기술이 너무 강해야 하고, 다른 하나는 적절한 자원, 특히 지도와 내비게이션이 있어야 한다는 것입니다. 음성과 자원의 제공자가 두 회사에 속한다면 이 제품은 거의 완성할 수 없다. 바이두는 모든 인터넷 회사 중 유일하게 요구에 부합하는 것이다. 우리의 테스트를 거쳐 바이두의 음성 인식 기술은 이미 일류 수준에 이르렀으며, 음성 깨우기와 오프라인 인식에 대한 우리의 요구를 만족시켰다. 음성 기술 외에도 Baidu 는 네비게이션 리소스를 제공 할 수 있습니다.

캉지아 TV 는 말했다:

스마트 TV 는 미래의 추세이며, 미래는 홈 스마트 미디어 센터가 될 것이며, 강가는 TV 업계의 강세로 일찌감치 이를 주목하고 있다. 우리는 스마트 텔레비전이 콘텐츠 시청 방식의 변화일 뿐만 아니라, 인간-컴퓨터 상호 작용의 혁명이라고 생각한다. 전통적인 리모콘은 이미 스마트 TV 사용자의 요구를 훨씬 충족시키지 못하고 있으며, 음성 상호 작용은 스마트 TV 를 상호 작용하는 가장 좋은 방법이 되었다. 음성 제어 채널을 통해 채널을 바꾸고, 다양한 기능을 설정하고, 비디오 리소스를 검색하면 스마트 TV 의 표준이 되었습니다. 음성에 따라 사용자의 속성을 판단하고 사용자에게 다른 콘텐츠를 제공할 수도 있습니다. 한편 텔레비전은 홈 스마트 미디어 센터로서 관람뿐만 아니라 게임, 쇼핑, 정보 검색에도 사용할 수 있다. 거의 모든 인터넷 행위가 텔레비전에서 실현될 수 있다.

바이두의 음성 인식 기술은 말할 필요도 없고, 더 중요한 것은 바이두가 가지고 있는 인터넷 자원이다. 예를 들어, 사용자는 TV 에서 예쁜 차를 보고 그 가격을 알고 싶어한다. 일반적으로 사용자는 컴퓨터나 핸드폰을 이용해 검색하지만 바이두와 합작한 후 음성 조회를 직접 사용할 수 있어 바이두가 사용자에게 만족스러운 결과를 줄 수 있다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 컴퓨터명언)

Baidu 음성 기본 서비스 아키텍처

기능 피쳐 설명

안드로이드 및 iOS 플랫폼을 지원하는 SDK

안드로이드는 버전 2.2 이상, iOS 는 버전 5.0 이상을 지원합니다.

장면 깊이 최적화

검색 및 지침 시나리오에 적합한 짧은 텍스트 인식 및 SMS, Weibo 등의 입력에 적합한 긴 텍스트 인식 패턴을 지원합니다.

분야 최적화에서는 수직 응용이 더 잘 인식됩니다.

Baidu 대량 데이터 자원을 기반으로 음악, 비디오, 응용 프로그램, 웹 검색, 지도 POI 인식을 최적화합니다.

특정 장면의 의미 론적 분석

지원 알림, 전화, 응용 프로그램, 달력, 주소록, 항공편, 호텔, 문자 메시지, 음악, 휴대폰 설정, 소셜 네트워킹, 기차, 여행, 날씨, 웹 사이트, 지도, 일반 지침 등 19 장면

자동 엔드포인트 감지 및 데이터 전송을 통해 트래픽 소비를 최적화합니다.

지능형 VAD 감지 기술은 사용자 음성의 시작점과 끝점을 동시에 분석하고 사운드를 계산하여 유효한 데이터만 전송하여 트래픽을 절약합니다.

다양하고 구성 가능한 UI 구성 요소

음성 인식 UI 구성 요소, 자동 볼륨 피드백, 밝은 파란색, 어두운 주황색, 밝은 빨간색 등 8 가지 주제를 지원하여 개발자가 최소한의 비용으로 통합할 수 있도록 합니다.

기본 API 를 제공하여 더욱 유연하고 강력합니다. 기본 식별 API 를 제공하여 보다 유연하고 강력한 방식으로 사용할 수 있습니다.

기존 API 인터페이스를 개방함으로써 개발자는 현재의 상호 작용 프로세스를 방해하지 않고 음성 인식 사용 시나리오를 유연하게 구축할 수 있습니다. 개방형 기본 API 인터페이스를 통해 개발자는 다양한 음성 인식 상호 작용 방식을 유연하게 구현할 수 있습니다. 팝업인지 대화인지는 네가 결정해.

상세한 서비스 통계 및 API 사용 관리

서비스 콘솔은 상세한 서비스 통계 쿼리 및 서비스 사용 빈도 관리를 지원하여 개발자가 서비스 사용 및 변화 추세를 파악할 수 있도록 합니다.

핵심 기술 특징

사용자 맞춤형 사운드 모델링 기술 및 방대한 데이터 식별 교육 기술

-GMM 모델 및 차별 교육 LDA, MPE, SAT, FMLLR, FMPE 등.

-수만 시간의 음향 모델 훈련 데이터, 주요 표준어 화자를 포괄한다.

대규모 언어 모델을위한 고속 교육 및 적응 형 업데이트 기술

-T 레벨 코퍼스를 지원하는 통계 언어 모델의 고속 훈련 및 업데이트

-문자 메시지, 웨이보, 지도, 음악, 여행, 비디오, 앱 등 수직 분야의 통합 모델링을 지원합니다.

복잡한 중국어 의미 공간을 지원하는 단방향 디코딩 기술

-수백 억 구문을 지원하는 언어 모델의 1 회 디코딩

-의미 정보가 포함된 구문 모델과 일반 통계 언어 모델의 혼합 디코딩을 지원합니다.

-수백만 사전을 지원할 수 있는 복잡한 의미 공간 모델링

-균일 한 정확도와 속도를 갖는 디코딩 알고리즘

딥 신경망 음향 모델링 기술

-대규모 데이터를 지원하는 딥 신경망 병렬 교육

-개인화 된 딥 신경망 모델링 기술 지원

깊은 의미 이해

-종속 분석, 정보 추출, 짧은 텍스트 분류 및 다양한 기계 학습 알고리즘과 같은 자연어 처리 기술을 통합합니다.

-다중 도메인 깊이 의미 분석, 도메인 독립적 정보 추출, 고유 이름 인식, 의미 정규화 등 얕은 의미 마크업

-지능형 오류 수정 및 추론 기술을 갖춘 대규모 웹 페이지, 검색 및 커뮤니티 데이터 마이닝을 기반으로 합니다.