a级片网址,www.一级毛片,日批国产,中文字幕日韩精品有码视频,黄色毛片免费网站,久久久精品午夜免费不卡,天堂福利视频

您當前的位置是:  首頁 > 資訊 > 國內(nèi) >
 首頁 > 資訊 > 國內(nèi) >

朗深:智能電話機器人的語義解析

2022-04-13 09:25:47   作者:   來源:CTI論壇   評論:0  點擊:


  一、語義解析架構(gòu)及流程
  快遞領(lǐng)域的特點是問題通常是為一些重復(fù)性的服務(wù)請求,比如退貨,查快遞,下單,查運費等,實現(xiàn)的是一個非常特定的目標,客戶只能同智能語音機器人聊設(shè)定好的固定主題,其可能的輸入和輸出是有限的,只需盡可能有效地完成具體的任務(wù)即可。這類對話系統(tǒng)從整體架構(gòu)上可分為兩層:
  1)意圖識別層:識別語言的真實意圖,將意圖進行分類并進行意圖屬性抽取。意圖決定了后續(xù)的領(lǐng)域識別流程,因此意圖層是一個結(jié)合上下文數(shù)據(jù)模型與領(lǐng)域數(shù)據(jù)模型并不斷對意圖進行明確和推理的過程。
  2)問答匹配層:對問題進行匹配識別及生成答案的過程。在對話體系中可按照業(yè)務(wù)場景進行不同典型問題類型的劃分,并且依據(jù)不同類型采用不同的匹配流程和方法。
  領(lǐng)域意圖識別一般只要識別用戶語義所指的類別,行動類意圖則是在一個領(lǐng)域內(nèi)的操作類意圖,電話呼叫場景下意圖識別任務(wù)有著以下難點:
  1)數(shù)據(jù)量匱乏:一般情況下,一個新的領(lǐng)域任務(wù)都會面臨冷啟動的問題,相應(yīng)的意圖識別也面臨著缺少足夠訓(xùn)練語料甚至無訓(xùn)練數(shù)據(jù)的問題,因此更多真實情況下,意圖識別一開始都是小數(shù)據(jù)建模問題。
  2)語音識別錯誤傳遞:很多情況下,意圖識別的對象并不是準確的文本,一方面可能是用戶拼寫錯誤,另一方面可能是由于語音識別的誤差。
  3)短文本意圖不明顯:真實口語交流中,用戶的表述一般屬于短句,很多情況下單句并不具備足夠的信息判斷其意圖,給意圖識別模型增加了困難。
  針對以上主要問題,一般從以下幾點考慮:
  1)針對數(shù)據(jù)量匱乏的問題,一方面可以借鑒遷移學(xué)習(xí)策略,利用現(xiàn)有的大量文本數(shù)據(jù)或者己有的其他領(lǐng)域任務(wù)輔助當前的新任務(wù),一種簡單的遷移學(xué)習(xí)方法即是使用預(yù)訓(xùn)練詞向量或語言模型結(jié)合簡單深度神經(jīng)網(wǎng)絡(luò)模型對數(shù)據(jù)建模。另一方面,針對無訓(xùn)練樣本或極少訓(xùn)練樣本的新意圖,一開始可以結(jié)合模板匹配或基于手工特征的傳統(tǒng)機器學(xué)習(xí)方法做粗糙的意圖識別,這種策略具有精準率高,召回不足的特點,可以再冷啟動階段快速構(gòu)建意圖識別系統(tǒng),同時可以在小數(shù)據(jù)集模型擬合能力不足的情況下進行快速干預(yù);谛(shù)據(jù)量搭建起基本系統(tǒng),通過不斷獲取真實語料,返回來再迭代模型,優(yōu)化模型。
  2)語音轉(zhuǎn)寫誤差傳遞的問題在電話呼叫系統(tǒng)中更為突出,語音識別系統(tǒng)往往不能達到100%的轉(zhuǎn)寫準確率,因此,模型要對包含噪聲的文本有相應(yīng)的容錯能力。通過實際樣本分析可以發(fā)現(xiàn),一般用戶的拼寫或者語音轉(zhuǎn)寫錯誤的字往往是正確文本的同音字。因此,引入字(當拼寫錯誤時,分詞系統(tǒng)往往無法準確分詞)和拼音特征可以很大程度上緩解拼寫錯誤和轉(zhuǎn)寫錯誤的問題。
  3)針對短文本意圖不明的情況,一般將上下文信息考慮到意圖識別的過程當中。而考慮上下文一般有兩種方式,第一種是將歷史信息直接加入到模型當中對當前文本意圖進行判斷,另一種方式則是直接根據(jù)當前領(lǐng)域、前一狀態(tài)通過規(guī)則判斷當前文本意圖。一個靈活并且泛化能力較強的意圖識別模塊往往結(jié)合了多種方法,如上所述,這里,意圖識別采用規(guī)則模板以及深度模型相結(jié)合的方法,其中規(guī)則模板的思路方法較為簡單和傳統(tǒng)。
  根據(jù)快遞業(yè)務(wù)場景特點,語義解析分為了意圖識別和智能問答兩個子問題。因此設(shè)計了基于文本分類的意圖識別模型,以及基于深度語義匹配的智能問答模型。
  1.提取用戶語音識別轉(zhuǎn)寫后的文本首先通過數(shù)據(jù)預(yù)處理單元,進行文本去噪(過濾語音轉(zhuǎn)寫生成的語氣詞等)、分詞、分字、提取拼音。
  2.預(yù)處理后的文本進入語義解析單元,進行通用意圖識別,該部分依次進行模板匹配和通用意圖識別模型,若成功識別為某一通用意圖,則返回意圖ID,否則進入步驟3.
  3.3進入業(yè)務(wù)意圖識別,該部分同樣依次進行模板匹配和通用意圖識別模型,如果成功識別為某一通用意圖,則返回意圖ID,否則進入步驟4。
  4.進入智能問答進行語義匹配,如果成功匹配到標準問題,則返回問題ID,否則返回?zé)o意圖。
  二、意圖識別
  模型輸入為文本,輸出為該文本所屬不同意圖的概率。本文將意圖識別模型抽象為三層,包括:嵌入層、編碼層、輸出層。嵌入層主要功能為生成詞表示;編碼層以詞表示為輸入,完成對句子進行編碼,輸出句子向量;輸出層將句子向量進一步變換,計算損失函數(shù),最終通過反向傳播算法更新網(wǎng)絡(luò)參數(shù)。
  三、智能問答
  智能問答的語義匹配模型的基本架構(gòu)如圖20所示。模型共分為輸入編碼層、交互層以及融合層:輸入編碼層使用雙向LSTM分別對兩個輸入詞嵌入做序列編碼,以捕獲更豐富的語義信息,該部分詞嵌入也可以采用字符、拼音粒度的表示;交互層首先計算輸入編碼層表示的Attention特征,然后同詞嵌入、輸入編碼層的輸出特征拼接。拼接特征通過雙向LSTM編碼,進一步捕獲帶有相關(guān)信息的句子編碼,作為下一層的輸入;融合層對淺層和深層信息進行融合,并對最終相似度得分進行預(yù)測。
http://www.ounistar.com/

【免責(zé)聲明】本文僅代表作者本人觀點,與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

專題

CTI論壇會員企業(yè)

双流县| 望江县| 东阿县| 雷波县| 金寨县| 桦川县| 尉氏县| 新乡市| 奇台县| 绵竹市| 察雅县| 调兵山市| 广汉市| 临江市| 从江县| 华容县| 江达县| 石林| 房产| 福清市| 邹平县| 芒康县| 嫩江县| 定兴县| 丁青县| 沾化县| 平原县| 德阳市| 南宫市| 丰镇市| 金华市| 白山市| 松滋市| 丰宁| 石楼县| 大埔区| 遂川县| 潜山县| 厦门市| 钟祥市| 额济纳旗|