a级片网址,www.一级毛片,日批国产,中文字幕日韩精品有码视频,黄色毛片免费网站,久久久精品午夜免费不卡,天堂福利视频

 首頁 > 新聞 > 專家觀點 >

車載語音交互步入深度訂制

--普強聯(lián)手四維圖新發(fā)生了什么故事

2016-06-27 17:27:54   作者:   來源:車云網(wǎng)   評論:0  點擊:


  普強信息技術(北京)有限公司的核心技術是語音識別和語義理解,在今年CES Asia四維圖新展臺亮相了一款前裝語音助手產(chǎn)品。
  CEO何國濤談規(guī)劃愛用“我的理想”。他把公司汽車語音產(chǎn)品分為三級進階:第一步實現(xiàn)車內(nèi)自然語音識別和理解;第二步成為更接近自然對話的語音助手,可以多輪對話和隨機打斷;第三步做多模態(tài)人機交互。
  2009年誕生于硅谷,2010年落定中國,車云菌坐在普強位于中關村云基地的辦公室時,現(xiàn)實正走在第二階段。
  “本地+云端”、“軟件+硬件”
  今年5月CES Asia展示的是眾泰SR7前裝車載導航產(chǎn)品,由普強、四維圖新、眾泰合作開發(fā)。
  在硬件上,普強提供了陣列麥克風可動態(tài)定位追蹤聲音位置,優(yōu)化藍牙通訊和語音識別效果。車載降噪DSP芯片可降低風噪胎噪和發(fā)動機引擎等車內(nèi)噪音并進行去回聲處理。
  現(xiàn)場產(chǎn)品功能支持喚醒和自然語音交互,在展會現(xiàn)場的嘈雜環(huán)境依然準確識別出各種指令,操控被定制到操作系統(tǒng)層級。連接藍牙后,可以與手機共享音樂列表、通訊錄等信息,并且可以通過語音進行操控。
  從產(chǎn)品表現(xiàn)來看,屬于一階段自然語音識別和理解。詢問車端表現(xiàn)時,車云菌從CTO李全忠得到了一組數(shù)據(jù)。在城市環(huán)路40-80公里/小時車速下,識別率可以達到95%以上。90-120公里/小時行駛時,識別率平均在90%左右。在此基礎上,空調(diào)車窗開啟和麥克風位置,也會不同程度地影響識別率。
  正在進行的二階段語音助手項目,李全忠認為技術已經(jīng)實現(xiàn)。目前普強自有的語音識別模型在大多數(shù)統(tǒng)計學方法之外,部分采用了神經(jīng)網(wǎng)絡算法,在一些意圖理解、語義匹配等方面,會用到部分深度學習技術。用上神經(jīng)網(wǎng)絡算法后,識別率上的躍升會達到10個百分點,“如果后續(xù)優(yōu)化變種,可能會帶來相對20%的提升空間”。
  李全忠認為,普強從一到二的突破難點,反而是車端硬件CPU和內(nèi)存受限。普強計劃年底隨車亮相的可多輪對話和隨機打斷語音助手,會使用一個“本地+云端”的混合方案,通過云端強大的服務器運算能力,完成更多自然交互,同時在網(wǎng)絡信號不佳時,交由本地識別。
  房子好不好,要靠骨架,也要靠藝術家
  在CEO何國濤看來,自家的技術和別人沒有太多區(qū)別。“技術只是骨架,房子好不好要靠藝術家,需要另一種腦子想辦法”,F(xiàn)場接介紹產(chǎn)品的 ZiJun畢業(yè)于加州伯克利大學認知科學專業(yè),是普強的交互設計師,正是何國濤口中的“藝術家”之一。
  交互設計師要做的就是利用和良好的交互規(guī)則接近理想的用戶體驗,確保產(chǎn)品能被用戶輕松玩轉(zhuǎn),易用的同時讓用戶心情愉悅。這其中也包括各種有效的交互方式,并能對它們進行增強和擴充。普強認為在注重產(chǎn)品技術的同時,更要注重從產(chǎn)品、界面、工作流、到用戶層面的交互設計。語音助手不但可以預測用戶需求,還能更準確理解用戶需求以滿足駕駛環(huán)境中特殊的信息交互。
  比如在用戶開口前語音助手該如何打招呼,相比較“你好”,直接提問“你好,你想去哪里?”是不是更好更主動地預測了需求。當用戶自帶口音回答“我要去京師律師大廈”后,導航有沒有必要再確定一次。在地址確定界面,要不要考慮按鍵操作和語音兩種交互方式靈活切換,讓用戶根據(jù)習慣選擇。
  簡單來說,語音助手在交互中將更加主動。有了上下文,推測和心理預期,自然聽得更明白,理解得更清楚。
  但這些“藝術家”并不是單純地調(diào)研想法,事實上,認知科學是一門涉及心理學、神經(jīng)科學、語言學、計算機的交叉學科,本身與技術也有著深入交織。普強在技術上考慮到交互設計師需要的更多創(chuàng)作空間,在框架設計時將語音識別引擎和流程做了比較好的分割,涉及流程上的優(yōu)化,本身并不會對產(chǎn)品產(chǎn)生影響。
  當“藝術家”將越來越多的交互串聯(lián),產(chǎn)品使用中的不自然會逐漸稀釋。何國濤的最終理想是將多種交互方式融合,讓車像人一樣擁有視覺、聽覺等多種感知能力。比如攝像頭看嘴型變化和聲學識別結(jié)合,根據(jù)人眼注視方向和語音交互結(jié)合起來。用戶也許會有自己習慣使用的一兩種習慣,而“不需要把某種交互干掉”。
  因為深度所以前裝
  查看普強的融資歷史,除了來自硅谷企業(yè)家黃炎松百萬美元天使輪,戈壁領投的 500萬美元A輪,最近一次的B輪1000多萬美元的投資方中,領投的是四維圖新。這也是普強和四維圖新同臺亮相CES Asia的原因。
  何國濤把前兩輪的融資都砸進了研發(fā),隨著技術逐漸成熟,四維圖新帶來的資源有了更大的想象空間。?
  不久之前,四維圖新收購杰發(fā)科技布局自動駕駛和車聯(lián)網(wǎng),借助杰發(fā)科技在車載領域的芯片業(yè)務,普強有機會將語音模塊直接做到芯片中帶動出貨。四維圖新投資的車載系統(tǒng)供應商和驪安,也整合了普強的語音助手聲學產(chǎn)品在前后裝鋪開業(yè)務。
  但何國濤最關注的不僅僅是跑量,在兩個方向中,他更重視前裝。因為語音助手所需的系統(tǒng)定制要達到操作系統(tǒng)級別,甚至更加底層的GPU,這在更加強調(diào)體驗的前裝才有更多機會。未來利用語音調(diào)用車輛更多內(nèi)部功能需要與CAN總線對接,也注定了與主機廠發(fā)生更多關聯(lián)。在目前科大訊飛占據(jù)大規(guī)模份額的前裝語音識別領域,普強需要一個標桿自證實力。
  有業(yè)內(nèi)人士介紹,在沒有系統(tǒng)捆綁方案的情況下,語音識別提供商給到車廠的語音識別代碼,大多經(jīng)過包裝,往往整句輸入整句輸出,因此在更加細節(jié)定制上存在復雜的額外開發(fā),這也恰好是現(xiàn)階段從自然語音識別更進一步,需要打破的藩籬。近期也有消息稱,科大訊飛正在車機市場有所布局,或許也是出于定制的考慮。
  自然不難想到,入口打開意味著更多數(shù)據(jù)收入囊中。大數(shù)據(jù)爆發(fā)繁榮了深度學習。當源源不斷的數(shù)據(jù)樣本涌來,算法才有更多可供訓練優(yōu)化的樣本。
  值得注意的是,當人們強調(diào)大數(shù)據(jù)的海量時,不能忽視精專。理想狀態(tài)下,四維普強合作的“車機、后視鏡、行車記錄儀”,都可以成為入口。四維的POI數(shù)據(jù)及其伙伴企業(yè)滴滴打車每天數(shù)億條的信息,也都更貼近產(chǎn)品使用場景,更適合用來快速地訓練一顆深度大腦。
  有數(shù)項語音專利在身的何國濤,因為專攻市場業(yè)務已經(jīng)不再Coding。他向車云菌透露,公司目前在進行一些關于UBI的小小研究。普強從保險公司和移動互聯(lián)網(wǎng)等領域切入市場時也陸續(xù)有過數(shù)據(jù)累計,隨著主機廠及四維圖新的合作深入,聲音會帶來更多化學反應。
分享到: 收藏

專題

明溪县| 会理县| 兰坪| 天柱县| 定边县| 绥化市| 绵阳市| 肇庆市| 孟津县| 广丰县| 内丘县| 德州市| 新绛县| 潞城市| 冀州市| 闽侯县| 安化县| 昌吉市| 盱眙县| 普宁市| 桐乡市| 仁寿县| 慈利县| 石嘴山市| 石泉县| 弋阳县| 措美县| 晋宁县| 裕民县| 梨树县| 临夏县| 南陵县| 阳朔县| 米脂县| 嘉荫县| 延川县| 乌兰浩特市| 鹿邑县| 垦利县| 安徽省| 丹凤县|