Alexa研究人員開發(fā)了2-mic語音識別系統(tǒng) 該系統(tǒng)擊敗了7-mic陣列

2019-06-15 11:21:47    來源:    作者:

這是一個(gè)眾所周知的事實(shí),在語音識別方面,兩個(gè)麥克風(fēng)比一個(gè)更好。直觀地說,它是有道理的:聲波到達(dá)具有不同時(shí)間延遲的多個(gè)麥克風(fēng),這可以用于增強(qiáng)來自特定方向的信號的強(qiáng)度,同時(shí)減少來自其他方向的信號。然而,從歷史上看,語音增強(qiáng)的問題 - 將語音與噪聲分離 - 已經(jīng)獨(dú)立于語音識別而得到解決,文獻(xiàn)表明這種方法產(chǎn)生了不合標(biāo)準(zhǔn)的結(jié)果。

但亞馬遜Alexa部門的研究人員相信他們已經(jīng)開發(fā)出一種新穎的聲學(xué)建模框架,通過統(tǒng)一語音增強(qiáng)和語音識別來提升性能。在實(shí)驗(yàn)中 - 當(dāng)應(yīng)用于雙麥克風(fēng)系統(tǒng)時(shí) - 他們聲稱他們的模型相對于使用舊方法的七麥克風(fēng)系統(tǒng)將語音識別錯(cuò)誤率降低了9.5%。

他們用一對論文(“用于遠(yuǎn)程語音識別的頻域多聲道聲學(xué)建模”,“用于遠(yuǎn)程語音識別的多維幾何空間聲學(xué)建模”)描述他們的工作,計(jì)劃在國際聲學(xué)會(huì)議,演講,和下個(gè)月在布萊頓的信號處理。

第一篇論文描述了一種多麥克風(fēng)方法,它取代了獨(dú)立的手工編碼算法,這些算法確定了波束形成器(在傳感器輸出上工作的空間濾波器,以增強(qiáng)波的幅度)方向,并通過單個(gè)神經(jīng)網(wǎng)絡(luò)識別語音信號。亞馬遜目前的Echo揚(yáng)聲器陣容可以動(dòng)態(tài)調(diào)整波束形成器,以適應(yīng)新的聲學(xué)環(huán)境。但是通過在不同環(huán)境的大型語料庫中訓(xùn)練單一模型,研究人員能夠取消適應(yīng)步驟。

“古典......技術(shù)的目的是在任意方向上引導(dǎo)單個(gè)[聲束],但這是一種計(jì)算密集型方法,”Alexa Speech組的演講科學(xué)家Kenichi Kumatani在博客文章中解釋道。“使用Echo智能揚(yáng)聲器,我們將多個(gè)波束形成器指向不同的方向,并確定產(chǎn)生最清晰語音信號的波束形成器......這就是為什么Alexa能夠理解您的天氣預(yù)報(bào)請求,即使電視在幾碼遠(yuǎn)的地方肆虐。”

單個(gè)神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)模型都將波束形成器的輸出傳遞給特征提取器,其形式為對數(shù)濾波器組能量,或者是多個(gè)不規(guī)則頻帶中信號能量的快照。在傳統(tǒng)模型的情況下,它們針對背景噪聲的估計(jì)進(jìn)行歸一化,并且提取器的輸出被傳遞到AI系統(tǒng),該AI系統(tǒng)計(jì)算與不同“電話”或短語音信息單元相對應(yīng)的特征的概率。

根據(jù)論文的作者,如果模型的每個(gè)組件(例如,特征提取器和波束形成器優(yōu)化器)分別初始化,性能會(huì)提高。他們補(bǔ)充說,不同的訓(xùn)練數(shù)據(jù)使模型能夠跨設(shè)備類型處理各種麥克風(fēng)配置。

“除了其他優(yōu)勢之外,這意味著新設(shè)備的ASR系統(tǒng)或不太廣泛使用的設(shè)備可以受益于更廣泛采用的設(shè)備產(chǎn)生的交互數(shù)據(jù),”Kumatani說。

鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。