亚洲香蕉影视在线播放,中文字幕在线第一页,2022av在线

　　語(yǔ)音識(shí)別是目前應(yīng)用最成熟的人機(jī)交互方式，從最初大家體驗(yàn)過(guò)的有屏手持設(shè)備這種近場(chǎng)的語(yǔ)音識(shí)別，如Siri以及各種語(yǔ)音助手，到現(xiàn)在，語(yǔ)音識(shí)別的應(yīng)用已經(jīng)完成了向智能硬件以及機(jī)器人上延伸，不過(guò)，新的人機(jī)交互對(duì)硬件、算法要求更加苛刻，各企業(yè)正面臨著巨大的挑戰(zhàn)。

　　那么實(shí)現(xiàn)人機(jī)交互需要解決哪些問(wèn)題？這其中的關(guān)鍵技術(shù)有哪些？人機(jī)交互的未來(lái)趨勢(shì)如何？本期硬創(chuàng)公開(kāi)課邀請(qǐng)了科大訊飛的研發(fā)主管趙艷軍為大家答疑解惑。

語(yǔ)音識(shí)別痛點(diǎn)在哪從交互到精準(zhǔn)識(shí)別如何做？

　　分享嘉賓：趙艷軍，AIUI項(xiàng)目負(fù)責(zé)人，科大訊飛云平臺(tái)研發(fā)主管，負(fù)責(zé)訊飛開(kāi)放平語(yǔ)音識(shí)別、語(yǔ)音合成、聲紋、喚醒等多項(xiàng)產(chǎn)品研發(fā)，同時(shí)負(fù)責(zé)人機(jī)交互解決方案AIUI的開(kāi)發(fā)，致力于把核心技術(shù)更好的產(chǎn)品化，使人與機(jī)器的交流像人與人之間一樣簡(jiǎn)單，自然。

　　人機(jī)交互的痛點(diǎn)

　　語(yǔ)音作為目前人機(jī)交互的主要方式，大家如果使用過(guò)，應(yīng)該都能舉出一些例子。比如說(shuō)話要靠近，發(fā)音要標(biāo)準(zhǔn)，環(huán)境要安靜，不能持續(xù)對(duì)話，不能打斷等。

　　不只是語(yǔ)音，包括圖像、障礙物檢測(cè)等技術(shù)，都會(huì)遇到這樣的問(wèn)題，比如人臉的識(shí)別，對(duì)光線、角度、距離都有一定的要求。歸結(jié)為一點(diǎn)就是，當(dāng)前人機(jī)交互在復(fù)雜環(huán)境的自適應(yīng)性方面，還有很多問(wèn)題需要解決。這還只是感知層面，另外還包括認(rèn)知層面，AI目前還不如我們想象的這么聰明，目前不能完全自主學(xué)習(xí)，仍然需要人的介入，比如知識(shí)庫(kù)的導(dǎo)入，機(jī)器行為的糾正等，都需要人的參與。

　　當(dāng)前的人機(jī)交互產(chǎn)品，在真正面對(duì)用戶時(shí)，在面對(duì)復(fù)雜環(huán)境時(shí)，魯棒性還不夠好。今天的分享，我們一起探討如何解決這些問(wèn)題，不管是通過(guò)算法，還是工程，抑或產(chǎn)品，都是我們可以選擇的途徑。

　　大家首先要有個(gè)共識(shí)，人機(jī)交互目前所面臨的問(wèn)題，不是一朝一夕，一蹴而就能解決的，需要在各個(gè)方向在核心技術(shù)上不斷進(jìn)步。

　　科大訊飛AIUI是怎么做的？

　　AIUI作為人機(jī)智能交互界面，旨在實(shí)現(xiàn)人機(jī)之間交互無(wú)障礙，使人與機(jī)器之間的交流，像人與人一樣，可以通過(guò)語(yǔ)音、圖像、手勢(shì)等自然交互的方式，進(jìn)行持續(xù)，雙向，自然地溝通。它由一套由云和客戶端相結(jié)合服務(wù)框架構(gòu)成，包括音視頻前端信號(hào)處理、云+端相配合交互引擎、內(nèi)容和知識(shí)平臺(tái)以及接口、用戶個(gè)性化系統(tǒng)等。平臺(tái)具備開(kāi)放性，第三方可進(jìn)行靈活配置、業(yè)務(wù)擴(kuò)展、內(nèi)容對(duì)接等。

　　以前的語(yǔ)音交互產(chǎn)品，包括訊飛在內(nèi)，大家提供的都是單點(diǎn)的能力，比如語(yǔ)音合成、語(yǔ)音喚醒、語(yǔ)音識(shí)別、語(yǔ)義理解，另外還有人臉識(shí)別、聲紋識(shí)別等。大家拿到這么多產(chǎn)品和能力，需要花很大的工作量，去開(kāi)發(fā)人機(jī)交互功能。

　　這種方式問(wèn)題比較明顯：

　　一方面是產(chǎn)品集成的工作量太大，造成很多中小開(kāi)發(fā)者無(wú)力去承擔(dān)這部分工作量；

　　另外就是因?yàn)榻换チ鞒烫L(zhǎng)，細(xì)節(jié)不好處理，造成各家產(chǎn)品的交互體驗(yàn)參差不齊。

　　所以AIUI交互方案首先要解決的就是這個(gè)問(wèn)題。AIUI是把麥克風(fēng)陣列、前端聲學(xué)處理、語(yǔ)音喚醒、端點(diǎn)檢測(cè)、語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成等技術(shù)在整個(gè)交互鏈上進(jìn)行深度融合的系統(tǒng)。

　　而且AIUI還支持了全雙工、多輪交互等新特性，并在單點(diǎn)技術(shù)上進(jìn)行突破和演進(jìn)，包括聲源定位與追蹤、持續(xù)在線，有效人聲智能檢測(cè)、基于用戶意圖的動(dòng)態(tài)語(yǔ)音端點(diǎn)檢測(cè)、支持上下文交互的語(yǔ)義理解、基于對(duì)話場(chǎng)景自適應(yīng)的語(yǔ)音識(shí)別等。

　　科普：語(yǔ)音交互的過(guò)程

　　首先，人機(jī)之間的語(yǔ)音交互（這里主要指智能硬件、機(jī)器人等），區(qū)別于傳統(tǒng)的有屏手持設(shè)備，在傳統(tǒng)的語(yǔ)音交互中，因?yàn)槭墙鼒?chǎng)，語(yǔ)音信號(hào)質(zhì)量相對(duì)較高，而且有觸摸屏輔助，所以交互鏈路可以相對(duì)簡(jiǎn)單。通過(guò)點(diǎn)擊屏幕觸發(fā)，再通過(guò)點(diǎn)擊屏幕或者能量VAD檢測(cè)，來(lái)結(jié)束語(yǔ)音信號(hào)采集，即可完成一次交互，整個(gè)過(guò)程通過(guò)語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成即可完成。

　　而對(duì)于人機(jī)之間的交互，由于涉及到遠(yuǎn)場(chǎng)，環(huán)境比較復(fù)雜，而且無(wú)屏交互，如果要像人與人之間的交流一樣自然、持續(xù)、雙向、可打斷，整個(gè)交互過(guò)程需要解決的問(wèn)題更多，AIUI為完成類人的語(yǔ)音交互，是一個(gè)需要軟硬件一體、云+端相互配合的過(guò)程。

　　我們來(lái)看下交互的整個(gè)流程，從大的方面來(lái)說(shuō)，還是以語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成為主線，只不過(guò)每個(gè)過(guò)程需要解決更多的問(wèn)題。

　　首先來(lái)看下語(yǔ)音喚醒，喚醒是人機(jī)交互的主要觸發(fā)方式，就像你要和一個(gè)人說(shuō)話，就得首先喊一下這個(gè)人的名字，才能開(kāi)始進(jìn)行交流。而在交流的過(guò)程中，如果有其他人喊你呢，你也是需要響應(yīng)的，需要支持持續(xù)喚醒。

　　機(jī)器被喚醒后，就需要知道說(shuō)話人的方位，這樣機(jī)器才可以做出更友好的響應(yīng)，比如轉(zhuǎn)身，移動(dòng)等。只有明確說(shuō)話人的方位后，才可以定向的拾音，做降噪處理，同時(shí)對(duì)說(shuō)話人進(jìn)行語(yǔ)音增強(qiáng)。這個(gè)聲源定位和語(yǔ)音增強(qiáng)主要是用麥克風(fēng)陣列的相關(guān)技術(shù)，下面會(huì)有詳細(xì)解釋。

　　在語(yǔ)音識(shí)別這個(gè)重要模塊中，首先要解決的就是遠(yuǎn)場(chǎng)識(shí)別，通過(guò)上面提到的麥克風(fēng)陣列和聲源定位，可以較好的實(shí)現(xiàn)遠(yuǎn)距離拾音，解決噪聲、混響、回聲帶來(lái)的影響。作為全雙工交互，持續(xù)的音頻流拾取，就要解決人聲檢測(cè)和斷句問(wèn)題，機(jī)器需要能夠過(guò)濾無(wú)效語(yǔ)音，做出快速的反饋和響應(yīng)。

　　人聲和端點(diǎn)的檢測(cè)不能只依賴于能量檢測(cè)的技術(shù)方案，需要解決更為復(fù)雜的環(huán)境，具體怎么解決呢，下面再展開(kāi)。

　　對(duì)于識(shí)別來(lái)說(shuō)，首先要保障的是遠(yuǎn)場(chǎng)環(huán)境下的識(shí)別率，除了前面提到的麥克風(fēng)陣列解決了前端聲學(xué)的問(wèn)題，還要有專門針對(duì)遠(yuǎn)場(chǎng)環(huán)境下，基于大量數(shù)據(jù)訓(xùn)練的聲學(xué)模型，這樣才能保證識(shí)別率滿足交互需求。

　　除了云端的語(yǔ)音識(shí)別，端上的識(shí)別也是需要做的，需要云+端方式進(jìn)行結(jié)合，這樣才能滿足復(fù)雜網(wǎng)絡(luò)下的使用場(chǎng)景。不過(guò)端上主要是去做一些命令式交互，響應(yīng)一些本地操作。比如關(guān)機(jī)、打電話、動(dòng)作指令等。

　　本地不做成無(wú)限制的響應(yīng)呢，因?yàn)閷?duì)于很多的用戶意圖來(lái)說(shuō)，是需要基于網(wǎng)絡(luò)去獲取內(nèi)容的，所以本地只做輔助使用，是為了解決一些復(fù)雜網(wǎng)絡(luò)環(huán)境所做的手段。這個(gè)地方的難點(diǎn)是需要做好云和端的PK策略，需要基于置信度、響應(yīng)時(shí)間等信息來(lái)綜合決策。作為持續(xù)的語(yǔ)音交互，不可避免要吸收很多無(wú)效的語(yǔ)音，拒識(shí)成為必須，否則會(huì)造成對(duì)話的混亂和無(wú)意義的響應(yīng)。

　　對(duì)于支持多輪的交互理解，語(yǔ)義引擎不再是無(wú)狀態(tài)的，系統(tǒng)更加復(fù)雜，需要有對(duì)話管理、歷史信息存儲(chǔ)等模塊。語(yǔ)義理解不只包含用戶說(shuō)話意圖，還要包括內(nèi)容的獲取，這樣才能在接下來(lái)的端點(diǎn)檢測(cè)、語(yǔ)音識(shí)別等交互過(guò)程中，共享信息，做到場(chǎng)景自適應(yīng)，以提高準(zhǔn)確率。

　　完成語(yǔ)音識(shí)別和語(yǔ)義的理解后，機(jī)器需要通過(guò)語(yǔ)音合成，把信息傳遞給用戶。合成這一塊沒(méi)有太多需要展開(kāi)的，訊飛提供了幾十種不同的發(fā)音人，而且支持不同情感進(jìn)行朗讀，至于該以何種情境、情感進(jìn)行播報(bào)，這是在語(yǔ)義理解中需要給出的信息。相比傳統(tǒng)的交互，現(xiàn)在的流程會(huì)看起來(lái)復(fù)雜很多。

　　功能：遠(yuǎn)場(chǎng)識(shí)別、全雙工、多輪交互

　　遠(yuǎn)場(chǎng)識(shí)別

　　遠(yuǎn)場(chǎng)識(shí)別，需要前后端結(jié)合去完成，一方面在前端使用麥克風(fēng)陣列硬件，通過(guò)聲源定位及自適應(yīng)波束形成做語(yǔ)音增強(qiáng)。在前端完成遠(yuǎn)場(chǎng)拾音，并解決噪聲、混響、回聲等帶來(lái)的影響。

　　不過(guò)這還不夠，因近場(chǎng)、遠(yuǎn)場(chǎng)的語(yǔ)音信號(hào)，在聲學(xué)上有一定的規(guī)律差異，所以在后端的語(yǔ)音識(shí)別上，還需要結(jié)合基于大數(shù)據(jù)訓(xùn)練、針對(duì)遠(yuǎn)場(chǎng)環(huán)境的聲學(xué)模型，這樣才能較好解決識(shí)別率的問(wèn)題。

　　全雙工

　　全雙工交互，是一個(gè)全鏈路的貫穿過(guò)程，不只是持續(xù)的拾音和網(wǎng)絡(luò)傳輸，更需要包括持續(xù)的語(yǔ)音喚醒、智能有效人聲檢測(cè)、動(dòng)態(tài)語(yǔ)音端點(diǎn)檢測(cè)、無(wú)效語(yǔ)音拒識(shí)等各個(gè)模塊相互配合，才能完成。

　　支持連續(xù)的語(yǔ)音喚醒是必須。在傳統(tǒng)的語(yǔ)音喚醒方案中，是一次喚醒后，進(jìn)行語(yǔ)音識(shí)別和交互，交互完成再進(jìn)入待喚醒狀態(tài)。但是在實(shí)際人與人的交流中，人是可以與多人對(duì)話的，而且支持被其他人插入和打斷。AIUI中語(yǔ)音喚醒采用BN（Bottle Neck）技術(shù)方案，支持低功耗的待機(jī)。

　　全雙工交互作為一個(gè)持續(xù)的交互過(guò)程，語(yǔ)音識(shí)別和語(yǔ)義理解，需要能夠做出快速的響應(yīng)。這就需要人聲檢測(cè)和智能斷句。傳統(tǒng)的斷句是基于能量的檢測(cè)來(lái)判定，但是有兩個(gè)主要缺點(diǎn)，一是無(wú)法過(guò)濾噪音和無(wú)效的語(yǔ)音，另外就是對(duì)說(shuō)話人的要求較高，中間不能有停頓。如果后端點(diǎn)設(shè)置的太短，容易造成截?cái)�；后端點(diǎn)太長(zhǎng)，又會(huì)造成響應(yīng)不及時(shí)。

　　AIUI的做法是，采用基于模型的有效人聲智能檢測(cè)和基于用戶意圖的動(dòng)態(tài)語(yǔ)音端點(diǎn)檢測(cè)。基于模型的檢測(cè)可以有效解決噪音和無(wú)效語(yǔ)音。這塊主要是通過(guò)采集不同環(huán)境的噪音，基于深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練出對(duì)應(yīng)聲學(xué)模型，進(jìn)行過(guò)濾，把有效的語(yǔ)音傳送到云端進(jìn)行交互。

　　動(dòng)態(tài)端點(diǎn)檢測(cè)算法實(shí)現(xiàn)從連續(xù)輸入的數(shù)據(jù)流中檢測(cè)出包含完整用戶意圖的語(yǔ)音送入語(yǔ)義理解模塊，可以很好的解決用戶的停頓，因?yàn)樵谌藱C(jī)的交流過(guò)程中，在一句包含完整意圖語(yǔ)音中，停頓是很常見(jiàn)的現(xiàn)象，這在我們對(duì)用戶的行為分析中得到驗(yàn)證。

　　另外在持續(xù)的語(yǔ)音交互過(guò)程中，必然會(huì)有無(wú)效的語(yǔ)音和無(wú)關(guān)說(shuō)話內(nèi)容被吸收進(jìn)來(lái)，所以拒識(shí)是必須。在AIUI系統(tǒng)中，我們針對(duì)全雙工交互中的這個(gè)問(wèn)題，專門構(gòu)建了一套基于深度神經(jīng)網(wǎng)絡(luò)的拒識(shí)系統(tǒng)，從聲學(xué)信號(hào)、語(yǔ)義等多個(gè)方面對(duì)接收的語(yǔ)音進(jìn)行拒識(shí)判斷。

　　多輪交互

　　同樣的，對(duì)于多輪交互中的語(yǔ)義理解和對(duì)話管理兩個(gè)模塊，我們也采用深度學(xué)習(xí)+海量數(shù)據(jù)的方式，使用用戶的實(shí)際數(shù)據(jù)，訓(xùn)練魯棒的語(yǔ)義理解和對(duì)話管理模型。

　　結(jié)合基于LSTM（長(zhǎng)短時(shí)記憶）的循環(huán)神經(jīng)網(wǎng)絡(luò)，使得模型具有長(zhǎng)時(shí)記憶的能力，結(jié)合對(duì)話上下文進(jìn)行準(zhǔn)確的語(yǔ)義理解，相信配合科大訊飛深度神經(jīng)網(wǎng)絡(luò)+大數(shù)據(jù)+“漣漪效應(yīng)”的研究思路，我們的多輪交互會(huì)越來(lái)越準(zhǔn)確、好用。

　　關(guān)鍵技術(shù)：麥克風(fēng)陣列

　　大家通過(guò)上圖可以看到，現(xiàn)實(shí)環(huán)境中噪音、混響、人聲干擾、回聲等因素，帶來(lái)的影響因素還是比較大的，我們一般是通過(guò)麥克風(fēng)陣列來(lái)解決。

　　麥克風(fēng)陣列是利用一定數(shù)目，一定空間構(gòu)型的聲學(xué)傳感器（一般是麥克風(fēng)）組成，用來(lái)對(duì)聲場(chǎng)的空間特性進(jìn)行采樣并處理的系統(tǒng)。麥克風(fēng)陣列能做很多事情，對(duì)于環(huán)境噪聲，它可以采用自適應(yīng)波束形成做語(yǔ)音增強(qiáng)，從含噪語(yǔ)音信號(hào)中提取純凈語(yǔ)音；對(duì)于說(shuō)話人說(shuō)話位置的不確性，它可以通過(guò)聲源定位技術(shù)來(lái)計(jì)算目標(biāo)說(shuō)話人的角度，來(lái)跟蹤說(shuō)話人以及后續(xù)的語(yǔ)音定向拾��；對(duì)于室內(nèi)聲音反射，導(dǎo)致語(yǔ)音音素交疊，識(shí)別率較低的問(wèn)題，它可以通過(guò)去混響技術(shù)，減小混響，提高識(shí)別率。

　　線性、環(huán)形、球形麥克風(fēng)在原理上并無(wú)太大區(qū)別，只是由于空間構(gòu)型不同，導(dǎo)致它們可分辨的空間范圍也不同。比如，在聲源定位上，線性陣列只有一維信息，只能分辨180度；環(huán)形陣列是平面陣列，有兩維信息，能分辨360度；球性陣列是立體三維空間陣列，有三維信息，能區(qū)分360度方位角和180度俯仰角。

　　其次麥克風(fēng)的個(gè)數(shù)越多，對(duì)說(shuō)話人的定位精度越高，但是定位精度的差別體現(xiàn)在交互距離的遠(yuǎn)近上，如果交互距離不是很遠(yuǎn)，5麥和8麥的定位效果差異不是很大。此外，麥克風(fēng)個(gè)數(shù)越多，波束能區(qū)分的空間越精細(xì)，在嘈雜環(huán)境下的拾音質(zhì)量越高，但是在一般室內(nèi)的安靜環(huán)境下，5麥和8麥的識(shí)別率相差不是很大。麥克風(fēng)個(gè)數(shù)越多，成本也越高，具體的產(chǎn)品，要綜合考慮應(yīng)用場(chǎng)景和實(shí)際的產(chǎn)品定位，選擇合適的麥克風(fēng)個(gè)數(shù)和陣型。

　　方案：破解環(huán)境對(duì)語(yǔ)音識(shí)別的影響

　　復(fù)雜的環(huán)境，一方面是外在環(huán)境的復(fù)雜，另一方面是方言和口音。外在環(huán)境復(fù)雜包括噪聲、混響、回聲等，而且噪音又分為不同的會(huì)議室、戶外、商場(chǎng)等不同環(huán)境，為了解決這些問(wèn)題，除了單通道語(yǔ)音增強(qiáng)技術(shù)，現(xiàn)在基本是采用上面提到的麥克風(fēng)陣列硬件和相關(guān)算法實(shí)現(xiàn)。

　　在方言、口音方面，大家都知道，在我們國(guó)家，幾十種方言，每個(gè)人都有自己的獨(dú)特口音，一般的解決方法的是基于各種方言數(shù)據(jù)，通過(guò)深度神經(jīng)網(wǎng)絡(luò)，訓(xùn)練各種方言模型，以提高識(shí)別率，這是業(yè)內(nèi)的通用做法。

　　為解決兩方面的問(wèn)題，訊飛正通過(guò)以下的技術(shù)方案，去適應(yīng)各種復(fù)雜環(huán)境的要求。包括以下方面：

　　1）提供條形、環(huán)形、球形的四麥、五麥、八麥等多種不同的麥克風(fēng)陣列構(gòu)型，以適應(yīng)不同的產(chǎn)品需求，比如叮咚音箱采用的就是環(huán)形8麥的方案。

　　麥克風(fēng)陣列技術(shù)雖然已經(jīng)可以達(dá)到相當(dāng)?shù)募夹g(shù)水平，但是總體上還是存在一些問(wèn)題的，比如當(dāng)麥克風(fēng)和信號(hào)源距離太遠(yuǎn)時(shí)(比如10m、20m距離)，錄制信號(hào)的信噪比會(huì)很低，算法處理難度很大；對(duì)于便攜設(shè)備來(lái)說(shuō)，受設(shè)備尺寸以及功耗的限制，麥克風(fēng)的個(gè)數(shù)不能太多，陣列尺寸也不能太大。而分布式麥克風(fēng)陣列技術(shù)則是解決當(dāng)前問(wèn)題的一個(gè)可能途徑。

　　所謂分布式陣列就是將子陣元或子陣列布局到更大的范圍內(nèi)，相互之間通過(guò)有線或者無(wú)線的方式進(jìn)行數(shù)據(jù)的交換和共享，并在此基礎(chǔ)上進(jìn)行廣義上的聲源定位、波束形成等技術(shù)實(shí)現(xiàn)信號(hào)處理。

　　相對(duì)于目前集中式的麥克風(fēng)陣列，分布式陣列的優(yōu)勢(shì)也是非常明顯的。首先分布式麥克風(fēng)陣列(尤其無(wú)線傳輸)的尺寸的限制就不存在了；另外，陣列的節(jié)點(diǎn)可以覆蓋很大的面積�？倳�(huì)有一個(gè)陣列的節(jié)點(diǎn)距離聲源很近，錄音信噪比大幅度提升，算法處理難度也會(huì)降低，總體的信號(hào)處理的效果也會(huì)有非常顯著的提升，目前科大訊飛已經(jīng)開(kāi)始了相關(guān)技術(shù)研究的布局工作。

　　2）不同環(huán)境的語(yǔ)音識(shí)別聲學(xué)模型，如上面提到的遠(yuǎn)場(chǎng)拾音，專門針對(duì)遠(yuǎn)距離拾音的環(huán)境進(jìn)行訓(xùn)練；

　　3）在方言方面，訊飛支持普通話、粵語(yǔ)等20多種方言，是目前涵蓋方言范圍最廣的。積累了一定量的多方言資源庫(kù)，并基于特殊的深度神經(jīng)網(wǎng)路結(jié)構(gòu)和上線數(shù)據(jù)的半監(jiān)督訓(xùn)練，實(shí)現(xiàn)了多方言數(shù)據(jù)信息的共享和方言的自動(dòng)迭代更新。

　　另外方言最大的難點(diǎn)，在于方言的自適應(yīng)，如何能夠根據(jù)用戶的語(yǔ)音，自動(dòng)匹配模型，訊飛已經(jīng)驗(yàn)證完成。

　　4）在口音的適配方面，訊飛已經(jīng)有一套完整的基于用戶的訓(xùn)練系統(tǒng)，可以針對(duì)每個(gè)用戶，建立閉環(huán)的優(yōu)化流程，為每個(gè)用戶建立自己的個(gè)性化聲學(xué)模型，目前正在訊飛輸入法試點(diǎn)，對(duì)于一些注冊(cè)用戶進(jìn)行灰度體現(xiàn)；

　　5）基于特定人群的模型訓(xùn)練，目前已經(jīng)為面向兒童的玩具方案，專門訓(xùn)練針對(duì)兒童的聲學(xué)匹配模型；

　　6）為每個(gè)應(yīng)用、每個(gè)用戶，提供個(gè)性化的語(yǔ)言模型；

　　AIUI的服務(wù)

　　AIUI對(duì)外完全開(kāi)放，不管是個(gè)人開(kāi)發(fā)者還是公司，在我們的平臺(tái)上都可使用。因AIUI需要與硬件相結(jié)合，所以現(xiàn)在是以評(píng)估板的形式開(kāi)放。如果評(píng)估效果滿足產(chǎn)品需求，我們提供模塊或者軟核的方式支持產(chǎn)品量產(chǎn)。

　　開(kāi)放平臺(tái)除了提供整體的方案和幾十個(gè)業(yè)務(wù)場(chǎng)景，還提供產(chǎn)品的個(gè)性化定制能力，主要包括喚醒詞定制、發(fā)音人定制、交互語(yǔ)義理解定制、語(yǔ)音識(shí)別資源定制、流程參數(shù)配置等，這些都是在Web平臺(tái)上開(kāi)放的功能，開(kāi)發(fā)者可以根據(jù)產(chǎn)品需求，在平臺(tái)上進(jìn)行個(gè)性化的配置和編輯。

　　如語(yǔ)義開(kāi)放平臺(tái)，提供私有語(yǔ)義編寫、自定義問(wèn)答導(dǎo)入，這一塊相信是大家最為關(guān)心的，每個(gè)機(jī)器人如何回答用戶的提問(wèn)，主要就通過(guò)這方面來(lái)體現(xiàn)。

　　還有很重要一點(diǎn)，AIUI允許第三方系統(tǒng)接入，AIUI作為可擴(kuò)展的伸縮服務(wù)，經(jīng)過(guò)語(yǔ)音云處理的識(shí)別和語(yǔ)義結(jié)果，只要在平臺(tái)上配置，第三方業(yè)務(wù)系統(tǒng)即可通過(guò)Http服務(wù)接入，以滿足更為復(fù)雜的個(gè)性化需求。

　　當(dāng)然訊飛開(kāi)放平臺(tái)還提供深度的定制服務(wù)，包括喚醒詞訓(xùn)練、發(fā)音人訓(xùn)練、語(yǔ)義及內(nèi)容制作等。通過(guò)平臺(tái)開(kāi)放和深度定制兩種方式，可以滿足各個(gè)產(chǎn)品之間的差異化。

　　未來(lái)：人機(jī)交互會(huì)融合？

　　融合必然是未來(lái)人機(jī)交互的趨勢(shì)。

　　以AIUI為例，在定義之初，就沒(méi)有把語(yǔ)音作為唯一的交互方式，而是把它設(shè)想為結(jié)合了人臉、人體追蹤、手勢(shì)、紅外等多種方式為一體的人機(jī)交互解決方案。

　　我們也在不斷的嘗試把語(yǔ)音和其他方式相結(jié)合，比如我們現(xiàn)在已經(jīng)上線的人臉、聲紋融合身份驗(yàn)證，即是最直接的例子，通過(guò)這種方式將能夠有效解決用戶的身份認(rèn)證問(wèn)題。

　　在AIUI中，也有很多的場(chǎng)景需要借助于不同方式來(lái)相互配合。舉個(gè)例子，在AIUI中，為解決遠(yuǎn)場(chǎng)的持續(xù)交互，使用了麥克風(fēng)陣列，采用定向拾音的方式來(lái)解決這個(gè)問(wèn)題，但是由于定向拾音的角度有限，造成持續(xù)交互過(guò)程中，說(shuō)話人的移動(dòng)成為問(wèn)題，這個(gè)時(shí)候，就需要有移動(dòng)的聲源定位和追蹤，簡(jiǎn)單依靠聲音的辨識(shí)和追蹤，很難有效解決這個(gè)問(wèn)題，這個(gè)時(shí)候如果能結(jié)合人體的追蹤，比如圖像和紅外手段，將可以進(jìn)一步降低出錯(cuò)概率。其他的場(chǎng)景還有人的年齡、性別等屬性識(shí)別，如果采用圖像、聲音相結(jié)合方式，將可以極高提升精準(zhǔn)度，提升機(jī)器的感知能力，AI也將更加智能。

a级片网址,www.一级毛片,日批国产,中文字幕日韩精品有码视频,黄色毛片免费网站,久久久精品午夜免费不卡,天堂福利视频

語(yǔ)音識(shí)別痛點(diǎn)在哪從交互到精準(zhǔn)識(shí)別如何做？

評(píng)論排行

推薦閱讀

專題

a级片网址,www.一级毛片,日批国产,中文字幕日韩精品有码视频,黄色毛片免费网站,久久久精品午夜免费不卡,天堂福利视频

語(yǔ)音識(shí)別痛點(diǎn)在哪 從交互到精準(zhǔn)識(shí)別如何做？

評(píng)論排行

推薦閱讀

專題

語(yǔ)音識(shí)別痛點(diǎn)在哪從交互到精準(zhǔn)識(shí)別如何做？