不過,對于社交產(chǎn)品團隊來講,現(xiàn)有的語音內(nèi)容審核+實時音視頻服務(wù),部署、調(diào)試、運維的成本高,而且很多方案對有背景音樂、噪聲的音頻識別效果差。為了解決這個問題,我們正式推出聲網(wǎng) Agora 一站式智能語音識別方案。
現(xiàn)有的方案都是如何實現(xiàn)的呢?
一般來講,一個社交產(chǎn)品需要對接三種廠商:CDN廠商,用來推流、拉流,實現(xiàn)普通的直播;RTC 廠商,用來實現(xiàn)低延時的實時互動直播;內(nèi)容審核廠商,通過 AI、人工進行審核。接入的架構(gòu)基本如下圖所示,可簡單概括為三步:
- 內(nèi)容經(jīng)過轉(zhuǎn)碼或直接推流至 CDN;
- 內(nèi)容審核廠商從 CDN 拉流,然后進行 AI 、人工內(nèi)容審核;
- 完成審核后,傳回給服務(wù)器端。
圖:傳統(tǒng)的實時音視頻內(nèi)容審核流程
這種舊方式帶來的問題顯而易見。首先,開發(fā)者需要對接三個廠商,要進行多次部署、調(diào)試,其中有很多調(diào)試的成本與風(fēng)險。而且,當(dāng) CDN 出現(xiàn)故障時,需要較長時間來排查問題。另外,在這個過程中,開發(fā)者還需要支付額外的拉流成本。
另一方面,目前的方案還需要解決噪聲問題。因為音頻社交有很多種場景,比如語音FM、語音聊天室、音樂社交、娛樂直播,這些場景常常伴有環(huán)境噪聲和背景音樂,會影響現(xiàn)有內(nèi)容審核方案的識別率。
聲網(wǎng)Agora 一站式智能語音識別方案
聲網(wǎng)現(xiàn)已提供業(yè)界獨有的一站式智能語音識別方案。如上圖架構(gòu)所示,開發(fā)者只需要在應(yīng)用中集成聲網(wǎng) Agora SDK,即可讓音頻在 Agora SD-RTN? 網(wǎng)絡(luò)中實時傳輸?shù)倪^程中完成語音內(nèi)容識別與審核。我們在原有的實時語音互動直播的基礎(chǔ)上,整合了業(yè)界 Top 3 語音識別服務(wù)。同時,基于聲網(wǎng)的 AI 音頻降噪引擎,來提高音頻質(zhì)量,優(yōu)化語音識別效果。
語音識別的流程如下圖所示。首先通過聲網(wǎng)獨家研發(fā)的 AI 音頻降噪引擎消除背景音,優(yōu)化音頻質(zhì)量,讓語音更加清晰。我們在網(wǎng)絡(luò)電臺、語音交友等互聯(lián)網(wǎng)平臺聽到的語音音頻通常有兩類,一類是普通的語音,另一類是非文字的聲音,如嬌喘和ASMR,后者是不存在任何語義的。所以我們會通過不同的模塊來檢測,將語音轉(zhuǎn)化為文字通過內(nèi)容安全引擎進一步過濾,結(jié)合“多意義上下文短文本垃圾檢測”、“Deep Learning 垃圾檢測”、“規(guī)則引擎”和“分類器”等模塊,過濾掉音頻中涉政、涉黃(包括嬌喘、ASMR)、暴恐、辱罵等違規(guī)內(nèi)容。人工審核團隊可以通過Web端后臺,對機器審核的結(jié)果進行抽查和復(fù)審,不斷優(yōu)化機器審核的準確率。這一過程可以大幅降人工審核成本,提升效率。
目前該解決方案可檢測出廣告、涉黃、涉政、暴恐、謾罵等違規(guī)內(nèi)容,適用于視頻直播、語音聊天室、娛樂直播、語音 FM、音樂社交等實時音視頻社交互動場景。
聲網(wǎng)Agora一站式智能語音識別方案優(yōu)勢包括:
1、調(diào)用 RESTful API,一站式接入聲網(wǎng) Agora 目前提供了實時音頻通話 SDK。在應(yīng)用中集成 Agora SDK 后,開發(fā)者可以通過調(diào)用 RESTful API,即可為自己的應(yīng)用增加語音內(nèi)容審核服務(wù)。相比傳統(tǒng)內(nèi)容審核方案,聲網(wǎng)方案可以節(jié)省開發(fā)時間、服務(wù)器等接入成本。
2、AI 降噪,識別率更高
面對語音識別中常見的噪聲、背景音樂等音質(zhì)問題。我們會通過聲網(wǎng) AI 音頻降噪引擎對音頻進行優(yōu)化,以提升語音的識別率。與此同時,用戶的語音、音頻體驗也會得到提升。在今年的 RTC 2019 實時互聯(lián)網(wǎng)大會上,我們還將進一步分享 AI 音頻降噪背后的技術(shù)實踐,敬請期待。
3、語音交互低延時
聲網(wǎng) SDK 實現(xiàn)了全球端到端76ms 的實時音視頻低延時傳輸。聲網(wǎng)Agora SD-RTN? 實時通信網(wǎng)絡(luò)采用私有 UDP 協(xié)議進行傳輸,基于軟件定義優(yōu)化路由選擇最優(yōu)傳輸路徑,自動規(guī)避網(wǎng)絡(luò)擁塞和骨干網(wǎng)絡(luò)故障帶來的影響。在能保證低延時傳輸?shù)耐瑫r,聲網(wǎng)Agora SDK還支持 48kHz 高音質(zhì)語音。