遊戲/ 玩具以及汽車。我們已經開發出能安裝在智能手機Smartphone 上的連續語音及短語語音識別軟件:Wanson ASR Chip1.0 ,它是專門為微小芯片上而開發的嵌入式語音識別引擎。,可以為用戶提供語音撥號和聲音命令控制等功能。這些軟件可以 作用在智能手機Smartphone,CDMA/2.5G/3.5G芯片,智能玩具以及汽車的導航 系統上。該語音識別軟件兼顧到識別速度和識別準確率的平衡,能運用於一系列從語音命令控制,語音人名撥號到語音翻譯,語言學習的實際應用中,使得我們的OEM 夥伴能快速地推出他們的新產品。
1、Wanson ASR Chip1.0 綜述:
l 此引擎可以為您已有的硬件平臺上(無論是16位MCU、DSP、或者ARM)上增加語音識別的功能,比如手機控制器平台。全套的解決方案包括了公司專有的非特定人語音識別引擎,不需要您現有控制器作大的硬件改動(僅需要增加音頻的輸入和輸出電路)。
l 在控制器芯片中移植非特定人語音識別引擎(標準的C語言寫的代碼),利用控制器芯片的運算能力完成語音識別功能,引擎可以識別關鍵詞200多條左右(可以根據控制器芯片的性能有所增加)。
l 系統具有顯著的抗噪性能,在30分貝下,基本上能夠完全識別,在30到50分貝的較吵的環境中,也能保持在90%以上的識別率;
2、Wanson ASR Chip1.0 系統
2、1系統框圖及概述
Wanson ASR Chip1.0 是一套功能強大,具有全部開發工具的語音識別系統,使開發者可以方便而快速地開發出一系列不同的應用。Wanson ASR Chip1.0 提供的特性包括有:
-
該語音識別軟件附帶了一系圖形化界面的軟件開發包,使廠商可以很快在現有的產品上增加語音識別功能;
-
秉承Wanson ASR 電信級語音識別軟件的高準確率和穩定性,持續提高客戶意度;
-
軟件採用標準C 書寫核心算法,使得該軟件能很快地移植到其他操作系統和處理器上;
-
提供了常規的,功能強大的API 接口,能夠很方便地與設備上的現有軟件集成.
2.2 應用程序開發
開發具有嵌入式語音識別功能的應用程序大約需要以下的步驟:
開發商在開發應用程序時,首先要定義的是準備給用戶提供什麼樣的特性和功 能。例如,喚醒功能 (該引擎可以使產品工作在待機狀態,等待清晰的喚醒命令, 啟動語音識別軟件工作)等等;
定義完性能之後,需要結合現有設備的硬件條件分析能否支持上述性能的實現。 如果必須的話,是否需要另加RAM和ROM,或者提高CPU的速度;
因為是基於消費類電子產品開發的應用程序,用戶界面是否友好事關重大。Wanson ASR Chip1.0 提供了一系列的開發包模擬運行環境,可以不斷調試,只到滿意為止;
以上所有步驟完成之後,可以進行代碼編寫和集成的工作。
3 硬件環境
Wanson ASR Chip1.0是模塊式的系統體系,單處理器處理所有模塊程序的運行。
CPU的運算能力,一般而言,在不同的系統配置下,需要做到實時識別並且不影響其他任務執行所需要的最低配置為6MIPS(取決于識別詞彙量大小和硬件配置等)。
RAM和ROM需求
對於嵌入式的語音識別系統,RAM和ROM的大小需求是由應用系統的功能設計所決定的。同時,不同的RAM和ROM大小又影響著識別的準確率和響應速度。一般情況下,較大的RAM和ROM存儲空間和快速的RAM和ROM速度更 有利於識別速度和識別準確率的提高。更多的情況下,在實際應用中,考慮到性能價格比,一般會選擇適當的RAM和ROM尺寸以達到速度和識別率的平衡。
|
功能
|
描述
|
ROM大小要求
|
RAM大小要求
|
|
語音識別離線語法生成
|
適用於語音命令控制等不需要動態語法生成的應用程序
|
200k
|
150k
|
|
語音識別在線語法生成
|
適用於語音命令控制、語音撥號等需要動態語法生成的應用程序
|
300k
|
200k
|
|
語音識別在線語法生成、語音合成
|
適用於語音命令控制、語音撥號等需要動態語法生成的應用程序並提供完整語音合成方案
|
500k
|
250k
|
表中所列的RAM和ROM的空間需求是一個近似數字
4 功能及特性
Wanson ASR Chip1.0 嵌入式語音識別系統提供了一系列獨到的功能和特性,以 適應不同的開發廠商的需求。
* 話者獨立
該軟件無需事先對用戶的語音訓練,任何人拿起來均可使用;
* 獨特的口音的處理技術
用戶不用說播音員般標準的普通話,全國各地帶有口音的用戶亦可以毫無問題得順暢使用該系統;
* 高識別率
在一定的硬件環境下,一次性載入詞彙量達到1000 中文詞條時,平均準確率達到95%以上,並且實時識別;
* 可移植的代碼
軟件採用標準C 書寫核心算法,使得該軟件能很快地移植到其他操作系統和處理器上;
* 小封裝,低系統配置
如前所述,Wanson ASR Chip1.0對系統硬件資源要求很少,因此可以適用於一系列消費類電子產品上,例如:
a) PDA,Smart phone
b) CDMA,GSM,GPS手機
c) MP3 播放器
d) 玩具
e) 車載GPS系統
f) 其他手提設備
* 在線更改語音資源
用戶在每次增加/刪減/更改詞彙集合后,無需關閉和重新啟動應用程序,系統可以即時在線更新系統資源,使用戶可以馬上使用;
* 環境噪音
該系統帶有噪音消除技術,對於應用環境噪音一定範圍之內,仍可保証高識別率;
* 動態詞彙庫
適用在不同的硬件條件下,詞彙集合可以從零到1000 詞條,採用系統軟件開發包,可以方便創建新的詞彙以適用於不同的應用(例如:命令控制集,地址簿, 人名等等)。