a级片网址,www.一级毛片,日批国产,中文字幕日韩精品有码视频,黄色毛片免费网站,久久久精品午夜免费不卡,天堂福利视频

您當(dāng)前的位置是:  首頁(yè) > 資訊 > 文章精選 >
 首頁(yè) > 資訊 > 文章精選 >

2022年語音技術(shù)行業(yè)現(xiàn)狀之語音引擎

2022-03-14 09:32:15   作者:   來源:CTI論壇   評(píng)論:0  點(diǎn)擊:


  CTI論壇(ctiforum.com) (編譯/老秦): 在經(jīng)歷了 2020 年的不安之后,2021 年應(yīng)該代表著一場(chǎng)重置。但隨著大流行頑固地與我們同在,這一年最終表明,COVID-19 給整個(gè)經(jīng)濟(jì)和社會(huì)帶來的許多變化很可能會(huì)成為永久性的。顯然,語音技術(shù)可以發(fā)揮重要作用。由于支持這些應(yīng)用程序的語音開發(fā)平臺(tái)和引擎的穩(wěn)步發(fā)展,配備對(duì)話式 AI 的智能虛擬助手將繼續(xù)變得更好,并承擔(dān)更多的客戶服務(wù)負(fù)擔(dān)。更高的聯(lián)絡(luò)中心數(shù)量和更多的語音技術(shù)用例,包括在醫(yī)療保健和金融領(lǐng)域,確保了對(duì)分析的穩(wěn)定需求,以幫助解碼客戶情緒。這些和其他語音技術(shù)的進(jìn)步確保了未來,雖然不可預(yù)測(cè),但也將保持令人興奮。如需詳細(xì)了解語音行業(yè)的貢獻(xiàn),請(qǐng)閱讀以下主題。
  • 語音引擎的現(xiàn)狀
  • 語音開發(fā)平臺(tái)現(xiàn)狀
  • 語音分析的狀態(tài)
  • 智能虛擬助手的現(xiàn)狀
  • 語音生物識(shí)別的現(xiàn)狀
  • 輔助技術(shù)現(xiàn)狀
  • 人工智能的現(xiàn)狀
  語音引擎的現(xiàn)狀
  去年是語音引擎技術(shù)旋風(fēng)般的一年。該行業(yè)見證了大量創(chuàng)新和市場(chǎng)增長(zhǎng)。然而,障礙仍然存在,包括持續(xù)的 COVID-19 大流行和可能導(dǎo)致用戶沮喪的技術(shù)限制。
  "迄今為止,語音技術(shù)引擎的主要主題是創(chuàng)新,"Khoros 首席技術(shù)官 Sejal Amin 說。 "在過去的十年里,語音技術(shù)領(lǐng)域已經(jīng)出現(xiàn)了許多新的社交媒體平臺(tái),人工智能和自然語言處理等先進(jìn)技術(shù)能力增加了它的多功能性和規(guī)模。"
  ETS AI Research Labs 的研究工程師 Rutuja Ubale 表示,谷歌、亞馬遜、IBM 和微軟繼續(xù)在該領(lǐng)域占據(jù)主導(dǎo)地位,并繼續(xù)改進(jìn)其用于語音轉(zhuǎn)文本、自動(dòng)語音識(shí)別 (ASR)、文本轉(zhuǎn)- 用于聊天機(jī)器人、翻譯等的語音 (TTS)、對(duì)話管理和自然語言理解 (NLU)。
  "這些 APIs 越來越多地被多家公司,尤其是處于早期開發(fā)階段的初創(chuàng)公司用于設(shè)計(jì)基于語音的應(yīng)用程序,以在他們沒有資源構(gòu)建內(nèi)部技術(shù)的情況下滿足不同的用戶需求,"Ubale 指出。
  Verint 語音和文本分析副總裁 Daniel Ziv 表示,由于 Alexa 和 Siri 等語音界面的出現(xiàn),消費(fèi)者已經(jīng)習(xí)慣將語音作為一種自然界面,因此語音引擎的發(fā)展正在加速。
  "世界上一些最大的公司以及初創(chuàng)企業(yè)社區(qū)都在對(duì)語音引擎技術(shù)和數(shù)據(jù)收集進(jìn)行投資,以幫助調(diào)整和優(yōu)化這些引擎。這是一個(gè)炙手可熱的市場(chǎng),創(chuàng)新迅速增長(zhǎng),圍繞語音、數(shù)據(jù)、情感和意圖打造了新的用例,"Ziv 說。
  移動(dòng)應(yīng)用程序中的語音助手似乎是目前最熱門的趨勢(shì)--一種幾乎滲透到每個(gè)人日常生活中的力量。
  "遠(yuǎn)場(chǎng) ASR 擴(kuò)展了智能電視和智能顯示器的語音助手功能,"Ubale 說。 "我也對(duì)將語音能力擴(kuò)展到教育和醫(yī)療保健領(lǐng)域感到特別興奮。"
  2021 年語音的其他發(fā)展包括貨幣化、語音購(gòu)物和新的語音設(shè)備。
  "我們已經(jīng)看到語音助手跨行業(yè)擴(kuò)展,越來越多的公司意識(shí)到語音人工智能技術(shù)的好處,并為他們的客戶尋求全渠道體驗(yàn)。品牌也開始考慮語音助手的重要方面,例如道德、性別、口音和文化偏見,"SoundHound 首席運(yùn)營(yíng)官 Michael Zagorsek 解釋道。
  Yobe 的聯(lián)合創(chuàng)始人兼首席科學(xué)家 Hamid Nawab 對(duì)語音引擎在語言理解方面取得的進(jìn)步印象特別深刻,在無噪音環(huán)境中的準(zhǔn)確率超過 90%。
  "它們非常有效和強(qiáng)大,這在很大程度上要?dú)w功于自然語言處理方面的工作,"Nawab 說。
  年度回顧
  去年出現(xiàn)了一些突出的發(fā)展:
  • 微軟收購(gòu)了 Nuance Communications。
  •  Meta (Facebook) 引入了 Generative Spoken Language Model (GSLM),它可以在沒有標(biāo)簽或文本的情況下從音頻中學(xué)習(xí)語音表示,讓語音技術(shù)對(duì)語言更具包容性,提高使用稀有語言的能力,并捕捉語音中的細(xì)微差別。
  •  Meta AI 還發(fā)布了一個(gè)大型開源數(shù)據(jù)集 Multilingual LibriSpeech,其中包含 50,000 小時(shí)的八種語言語音數(shù)據(jù),可用于訓(xùn)練獨(dú)立或組合的 ASR 模型。
  •  Apple 為簡(jiǎn)單的導(dǎo)航任務(wù)推出了適用于 Siri 的設(shè)備上語音識(shí)別。
  •  谷歌啟動(dòng)項(xiàng)目LaMDA(對(duì)話應(yīng)用語言模型)。
  •  新數(shù)據(jù)被添加到任何人都可以用來訓(xùn)練語音應(yīng)用程序的通用語音數(shù)據(jù)集中。
  •  發(fā)布了 wav2vec2 的多語言版本,稱為 XLSR(跨語言語音表示),可使用 128 種語言進(jìn)行訓(xùn)練。
  •  Vosk API 發(fā)布了適用于 20 種語言的輕量級(jí) ASR 模型,這些模型與其 API 兼容,可用于實(shí)時(shí)語音識(shí)別。
  毫不奇怪,該行業(yè)已準(zhǔn)備好快速增長(zhǎng)。 IDC 預(yù)測(cè),全球?qū)υ捠饺斯ぶ悄苘浖袌?chǎng)將從 2020 年的 22 億美元增長(zhǎng)到 2025 年的 79 億美元,年復(fù)合增長(zhǎng)率為 28.8%。
  "該市場(chǎng)的增長(zhǎng)繼續(xù)受到會(huì)話 AI、語音到文本、文本到語音、機(jī)器翻譯和獨(dú)立自然語言處理 (NLP) 軟件的增長(zhǎng)的推動(dòng),這些軟件用于創(chuàng)建會(huì)話 AI 解決方案并為其他類型的企業(yè)軟件提供對(duì)話功能,"Ziv 說。
  還要考慮一下,TTS 市場(chǎng)預(yù)計(jì)將從 2020 年的 19.4 億美元增加到 2028 年的 56.1 億美元。
  在對(duì)話式AI 領(lǐng)域,許多人對(duì)端到端口語理解 (SLU) 系統(tǒng)的開發(fā)感到興奮。
  "雖然以前的努力旨在消除對(duì) ASR 的需求,并直接從原始語音轉(zhuǎn)向意圖和插槽識(shí)別,但新的努力旨在整合對(duì)話歷史以提高對(duì)人機(jī)對(duì)話的理解,"Ubale 說。 "雖然有幾家公司已經(jīng)在致力于在設(shè)備上部署 ASR,但亞馬遜最近關(guān)于融合 ASR 和設(shè)備上 SLU 的自然語言理解的研究也令人興奮。"
  Amin 認(rèn)為,隨著公司推進(jìn)對(duì)話式客戶服務(wù),多語言模式的采用增加是最重要的進(jìn)步。
  "轉(zhuǎn)向多語言語音助手可以提高可訪問性和品牌影響力,從而可以接觸到新的和以前可能無法進(jìn)入的市場(chǎng)的受眾?蛻舾鼉A向于忠于了解其人口統(tǒng)計(jì)數(shù)據(jù)的品牌," Amin 說。
  去年另一個(gè)值得注意的發(fā)展是將核心序列建模擴(kuò)展到其他領(lǐng)域。
  "研究人員表明,當(dāng)前語言模型背后的技術(shù)可用于解決廣泛的強(qiáng)化學(xué)習(xí)問題,"Nextiva 首席技術(shù)官 Phil Steitz 解釋說。 "我們還看到了跨多個(gè) AI/機(jī)器學(xué)習(xí)領(lǐng)域的可訪問性和易于實(shí)施的重大進(jìn)步。開源框架、模型和組件顯著降低了團(tuán)隊(duì)實(shí)施當(dāng)代 AI 解決方案的門檻。"
  有效過濾背景噪音和了解嘈雜環(huán)境中的用戶仍然是該領(lǐng)域的主要困難。
  "噪音會(huì)擾亂麥克風(fēng)拾取的語音模式。消除噪音的能力可以為在各種環(huán)境中與語音助手進(jìn)行交互打開大門,例如汽車、街道或背景噪音較多的區(qū)域,"Zagorsek 說。
  Nawab 將此稱為"雞尾酒會(huì)問題"。
  "盡管具有強(qiáng)大的自然語言理解能力,但機(jī)器學(xué)習(xí)尚未能夠解決這個(gè)問題,尤其是對(duì)于嘈雜的現(xiàn)實(shí)世界環(huán)境。這是語音轉(zhuǎn)文本、對(duì)話式人工智能平臺(tái)和語音助手的瓶頸,"他說。
  Elektrobit 用戶體驗(yàn)總監(jiān) J?rg Scherer 表示,集成 AI 技術(shù)已將識(shí)別性能提高到可接受的水平。
  "然而,對(duì)意圖的清晰理解仍然是一個(gè)挑戰(zhàn)。因此,需要考慮更多與上下文相關(guān)的信息,例如用戶的偏好、位置和對(duì)話歷史,以通過推理生成語音對(duì)話答案,"Scherer 建議道。
  管理語音多樣性和控制偏見是另一個(gè)需要注意的粘性小部件。
  "當(dāng)前的 ASR 模型現(xiàn)在非常擅長(zhǎng)清晰、緩慢的語音,但它們需要更好地識(shí)別不同的方言和專業(yè)詞匯,"Steitz 說。
  另一個(gè)挑戰(zhàn)是在與客戶一起使用品牌 TTS 和真實(shí)的人類體驗(yàn)之間找到平衡,同時(shí)確保每個(gè)客戶群的每條消息都是不同的。
  然后,人們?cè)絹碓綋?dān)心語音數(shù)據(jù)和隱私。 "組織需要有效地操作語音數(shù)據(jù),但要在不侵犯用戶和客戶隱私的情況下防止濫用,"Ziv 認(rèn)為。
  展望未來
  盡管面臨挑戰(zhàn),但預(yù)測(cè)要求未來令人興奮的發(fā)展。
  "我預(yù)見到人工智能驅(qū)動(dòng)的語音技術(shù)將越來越多地被開發(fā)用于改善社會(huì),特別是醫(yī)療保健和教育領(lǐng)域,"Ubale 說。 "現(xiàn)在,大多數(shù)現(xiàn)成的功能提供的語音信息非常有限。但在未來,工程師和科學(xué)家將更多地投資于構(gòu)建基礎(chǔ)能力,以應(yīng)對(duì)試圖學(xué)習(xí)一門新語言的用戶面臨的特定挑戰(zhàn),為專業(yè)發(fā)展而重新技能或提升技能,以及克服特定的醫(yī)療需求。"
  Zagorsek 設(shè)想了四個(gè)創(chuàng)新將強(qiáng)勁的領(lǐng)域:主動(dòng)語音助手、情緒檢測(cè)、擴(kuò)展的多語言和重音語言能力,以及增加的貨幣化。
  "在不久的將來,我們將看到語音助手通過收集有關(guān)上下文和情況的信息,然后主動(dòng)提出有用的建議并采取行動(dòng)來發(fā)揮積極作用并提供更大的有用性,"Zagorsek 說。
  Amin 預(yù)測(cè),隨著客戶繼續(xù)尋求人際互動(dòng),同理心將變得更加重要。 "通過異步消息傳遞和客戶語音等先進(jìn)技術(shù),可以更好地滿足客戶的需求并提供白手套體驗(yàn),從而產(chǎn)生同理心。"
  Ziv 也同樣熱情。 "我預(yù)見到實(shí)時(shí)語音應(yīng)用程序的興起和持續(xù)發(fā)展勢(shì)頭,例如實(shí)時(shí)座席輔助,"他說。 "我還看到了與虛擬現(xiàn)實(shí)和語音交互的沉浸式人機(jī)語音的出現(xiàn),例如,鍵盤和通過手指發(fā)短信消失了。"
  聲明:版權(quán)所有 非合作媒體謝絕轉(zhuǎn)載
  原文網(wǎng)址:https://www.speechtechmag.com/Articles/Editorial/Features/The-2022-State-of-Speech-Engines-151325.aspx
 
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

專題

CTI論壇會(huì)員企業(yè)

甘谷县| 万年县| 泉州市| 西昌市| 墨竹工卡县| 土默特左旗| 濮阳市| 长春市| 恩平市| 宜兰县| 万载县| 泰州市| 仙桃市| 松溪县| 清苑县| 阿克陶县| 凭祥市| 郎溪县| 商丘市| 利辛县| 高清| 平果县| 临汾市| 皮山县| 泰兴市| 阿克| 繁昌县| 鄂托克旗| 合川市| 张家界市| 金乡县| 小金县| 福州市| 松原市| 靖州| 南安市| 贡山| 乌鲁木齐县| 焉耆| 许昌县| 海南省|