端點檢測
語音端點檢測是對輸入的音頻流進(jìn)行分析,確定客戶說話的起點和終止點的處理過程。一旦檢測到客戶開始說話,語音開始流向識別引擎,直到檢測到客戶說話結(jié)束。這種方式能夠使得識別引擎在客戶說話的同時開始進(jìn)行識別處理,做到最大限度的即時處理。
端點檢測過程:
1.基于語音信號的特征,用能量,過零率,熵(entropy),音高(pitch)等參數(shù)以及它們的衍生參數(shù),來判斷信號流中的語音/非語音信號。
2.在信號流中檢測到語音信號后,判斷此處是否是語句的開始或結(jié)束點。在商用語音系統(tǒng)中,由于信號的多變的背景和自然對話模式而更容易使得句中有停頓(非語音),特別是在爆發(fā)聲母前總會有無聲間隙。因此,這種開始/結(jié)束的判定尤為重要。
n端點檢測目的:
1.減少識別器的數(shù)據(jù)處理量?梢源罅繙p少信號傳輸量及識別器的運算負(fù)載,對于語音對話的實時識別有重要作用。
2.拒絕非語音的信號。對非語音信號的識別不僅是一種資源浪費,而且有可能改變對話的狀態(tài),造成對用戶的困擾。
3.在需要打斷(barge-in)功能的系統(tǒng)中,語音的起始點是必須的。在端點檢測找到語音的起始點時,系統(tǒng)將停止提示音的播放。完成打斷功能。
端點檢測對識別系統(tǒng)的影響
隨著語音識別應(yīng)用的發(fā)展,越來越多的系統(tǒng)將打斷功能作為一種方便有效的應(yīng)用模式。而打斷功能又直接依賴端點檢測。端點檢測對打斷功能的影響發(fā)生在判斷語音/非語音的過程出現(xiàn)錯誤時。表現(xiàn)在過于敏感的端點檢測產(chǎn)生的語音信號的誤警將產(chǎn)生錯誤的打斷。例如,提示音被很強(qiáng)的背景噪音或其它人的講話打斷,是因為端點檢測錯誤的將這些信號作為有效語音信號造成的。反之,如果端點檢測漏過了事實上的語音部分,而沒有檢測到語音。系統(tǒng)會表現(xiàn)出沒有反應(yīng),在用戶講話時還在播放提示音。端點檢測對識別系統(tǒng)的識別效果影響也很大。語音信號的起始點和結(jié)束點判斷有誤,有可能影響整個信號的完整性,在語句的開頭或結(jié)尾漏掉一些有用的數(shù)據(jù)。當(dāng)這種情況發(fā)生時,很可能對識別的準(zhǔn)確度有特別大影響。不完全的信息會使識別率降低。
商用端點檢測應(yīng)具備的特性:
1.端點檢測的精確度高。
2.更好的背景噪聲和語音模型:使系統(tǒng)對背景噪聲,其它說話人和非語音的聲音有很好的拒絕功能。
3.默認(rèn)的系統(tǒng)相關(guān)參數(shù)有很好的適用性,而在有需要的現(xiàn)實環(huán)境中,可以通過系統(tǒng)調(diào)節(jié)來適應(yīng)通話環(huán)境,改善端點檢測的效果。
4.對信道有自適應(yīng)能力:在對話開始后能很快適應(yīng)當(dāng)前的信道特征,使得端點檢測的準(zhǔn)確度有進(jìn)一步提高。
5.獨特的識別服務(wù)器的反饋和非語音持續(xù)時間雙重結(jié)束點判定功能,有效的改善了語音結(jié)束點的判定。特別是對較長的語句效果更加突出。
基于可靠的端點檢測技術(shù)和智能反饋,智能打斷功能不僅應(yīng)該在一般的環(huán)境下工作出色,而且能有效的拒絕環(huán)境噪聲,非語音的高強(qiáng)噪聲(呼吸,關(guān)門等)環(huán)境中其它人的聲音。
http://www.ounistar.com/
http://www.ounistar.com/