国产精品国产三级国产,欧美成人精品三级网站,精品动漫中文字幕一区二区三区

　　1.應(yīng)用場景

　　智能語音客服行業(yè)作為人工智能技術(shù)較早實(shí)現(xiàn)商業(yè)化落地的領(lǐng)域，吸引了眾多企業(yè)爭相布局。目前，隨著智能語音客服機(jī)器人大規(guī)模應(yīng)用到實(shí)際生產(chǎn)環(huán)境中，語音通話數(shù)據(jù)生成快速，體量浩大，模態(tài)繁多，且由于ASR識別魯棒性不夠，導(dǎo)致智能語音客服機(jī)器人表現(xiàn)還不盡如人意，分析主要原因，有以下幾方面：

　�。�1）音頻采集環(huán)境復(fù)雜

　　音頻采集環(huán)境復(fù)雜，主要包括了，背景包含多種噪聲，性噪比SNR過低；音頻采集通道性能不合格，不能過濾掉不相干的信號，使得有效信息丟失或者不足。

　�。�2）測試數(shù)據(jù)和訓(xùn)練模型的數(shù)據(jù)不匹配

　　測試數(shù)據(jù)和訓(xùn)練模型的數(shù)據(jù)不匹配，主要有性別，年齡，說話人情緒，口音影響等因素為音頻的識別帶來了很大的困惑性，導(dǎo)致不能正確解碼。

　�。�3）說話人非標(biāo)準(zhǔn)表達(dá)

　　說話人非標(biāo)準(zhǔn)表達(dá)，即自發(fā)性口語識別問題，由于在實(shí)際生活中，說話人在表達(dá)時(shí)，會存在遲疑，重復(fù)，停頓等多種自發(fā)性口語現(xiàn)在，同時(shí)，還可能在說話時(shí)夾雜著外語詞匯或者不常見的獨(dú)有詞匯。

　　ASR系統(tǒng)要應(yīng)用于實(shí)際生產(chǎn)環(huán)境中，不僅要適應(yīng)各類緩變噪聲，而且必須在噪聲強(qiáng)度和種類多變的情況下保持穩(wěn)定性能；除聲學(xué)環(huán)境噪聲因素外，還需面對說話人存在的口音和方言以及說話人說話方式的隨意性等因素。

　　2.模型

　　智能語音客服應(yīng)用于通信系統(tǒng)，典型的會話信道大約只有40%的時(shí)間真正用于傳輸語音，其余的時(shí)間傳輸?shù)亩际庆o默和背景噪聲。因此，需要在ASR前端采用一個(gè)語音端點(diǎn)檢測器VAD來區(qū)分語音和靜默以及背景噪聲，通過提高ASR系統(tǒng)資源的利用率擴(kuò)大ASR系統(tǒng)的并發(fā)識別容量。

　　同時(shí)，由于處理的數(shù)據(jù)量越來越大，需要處理的規(guī)模越來越大，從工程實(shí)現(xiàn)以及部署成本而言，還需綜合考慮多路并行處理、實(shí)時(shí)性、易實(shí)現(xiàn)、資源占用情況以及大規(guī)模實(shí)現(xiàn)等諸多關(guān)鍵因素，設(shè)計(jì)實(shí)現(xiàn)大規(guī)模電話語音識別前端實(shí)時(shí)處理系統(tǒng)，完成對多路實(shí)際電話信道語音的實(shí)時(shí)處理，滿足在大規(guī)模電信網(wǎng)中的應(yīng)用需求。

　　除實(shí)現(xiàn)大規(guī)模電話語音識別前端實(shí)時(shí)處理系統(tǒng)外，還需使系統(tǒng)具備一定的容錯性，確保在語音信號段判決錯誤的情況下通過聲學(xué)拒識決定是否接受ASR識別后文本，并且要通過句間停頓時(shí)間自適應(yīng)調(diào)整清晰定義句子邊界，從而大大降低ASR的計(jì)算量和處理時(shí)間，提高系統(tǒng)的識別精度。

　　通過對大量電話系統(tǒng)語音進(jìn)行統(tǒng)計(jì)分析得出90%以上話路的語音信噪比大于10dB，個(gè)別話路信噪比相對較低，存在各式各樣的噪聲，甚至有些環(huán)境下信噪比為0dB左右�；诖�，本方案分兩級對電話信道語音進(jìn)行檢測。首先在時(shí)域進(jìn)行一級處理，判決出疑似語音幀和非語音幀，將疑似語音的幀交由二級進(jìn)行頻域處理。因?yàn)槎壟袥Q是在一級判決的基礎(chǔ)上完成，只用對一級處理后疑似語音的幀進(jìn)行判決，對同一目標(biāo)話路的檢測，相對只通過一級檢測所需的計(jì)算數(shù)據(jù)量明顯減少，為整個(gè)系統(tǒng)的其他處理模塊提供更多的可支配時(shí)間，提高系統(tǒng)實(shí)時(shí)性。

　　二級VAD檢測實(shí)現(xiàn)對電話語音流標(biāo)識通話狀態(tài)，分為會話靜默、會話開始、會話進(jìn)行中以及會話結(jié)束4類。并且，在二級VAD檢測實(shí)現(xiàn)時(shí)增加幀特征參數(shù)提取模塊、且在進(jìn)行特征計(jì)算時(shí)調(diào)用特征參數(shù)提取部分中間運(yùn)算模塊（如FFT運(yùn)算模塊），以此減少整個(gè)語音處理系統(tǒng)的資源消耗。

　　3.數(shù)據(jù)處理及分析

　　目前，正在收集標(biāo)注這樣一個(gè)數(shù)據(jù)集。數(shù)據(jù)集分為干凈語料、聲學(xué)環(huán)境噪聲語料、口音方言語料以及雙聲道通話語料，其中干凈語料、聲學(xué)環(huán)境噪聲語料和口音方言語料需要通過人工標(biāo)注收集。

　�。�1）聲學(xué)拒識

　　首先，基于特征規(guī)則來輔助人工收集聲學(xué)拒識語料庫（干凈語料、聲學(xué)環(huán)境噪聲語料、口音方言語料），減少人工標(biāo)注的工作量，并構(gòu)造一個(gè)語音大數(shù)據(jù)信息處理工具，應(yīng)對機(jī)器學(xué)習(xí)的不確定性，通過多試快速迭代出語音大數(shù)據(jù)信息處理工具，便于通過該工具方便地添加新數(shù)據(jù)、新特征，并快速訓(xùn)練出一個(gè)新模型通過海量的拒識語料來進(jìn)行性能指標(biāo)測試；然后，基于高斯混合模型GMM算法和支持向量機(jī)SVM算法等機(jī)器學(xué)習(xí)算法，并結(jié)合語音大數(shù)據(jù)信息處理工具提取出來的多種語音特征值，在語音識別前端，開發(fā)實(shí)現(xiàn)一種復(fù)雜環(huán)境下準(zhǔn)確性和穩(wěn)定性較高的聲學(xué)拒識算法。

　　采取的方案以及方案要適用多類條件識別情況，不僅適用于口音方言的語音識別問題，還需適用于復(fù)雜背景噪聲環(huán)境識別問題等。

　�。�2）句間停頓時(shí)間自適應(yīng)

　　基于電話庫中的自然口語對話中存在各種各種各樣的話輪轉(zhuǎn)換形式，并且有大量的疊接現(xiàn)象（搶話）。通過基于雙聲道通話語料進(jìn)行智能客服交互場景下的疊接現(xiàn)象分析，研發(fā)一種可根據(jù)預(yù)估思考時(shí)間、話輪意圖、環(huán)境音感知的句間停頓自適應(yīng)調(diào)整機(jī)制，實(shí)現(xiàn)智能語音客服通過和人類一樣的非對稱對話模式協(xié)調(diào)與人類進(jìn)行全雙工語音交互，減少用戶感知的等待時(shí)間，及時(shí)響應(yīng)話者意圖。