Google AI技術(shù)可將語(yǔ)音識(shí)別錯(cuò)誤降低29％

2019-06-22 14:13:57 來源：作者：

這些天語(yǔ)音識(shí)別非常好。EdgeSpeechNet等最先進(jìn)的模型在去年年底的研究論文中有詳細(xì)介紹，能夠達(dá)到97%的準(zhǔn)確率。但即便是最好的系統(tǒng)也會(huì)偶然發(fā)現(xiàn)不常見的罕見詞匯。

為了縮小差距，谷歌和加利福尼亞大學(xué)的科學(xué)家提出了一種方法，可以利用純文本數(shù)據(jù)訓(xùn)練的拼寫校正模型。在預(yù)印本服務(wù)器Arxiv.org上發(fā)表的一篇論文(“ 用于端到端語(yǔ)音識(shí)別的拼寫校正模型 ”)中，他們報(bào)告說，在使用800字，960小時(shí)語(yǔ)言建模LibriSpeech數(shù)據(jù)集的實(shí)驗(yàn)中，他們的技術(shù)顯示相對(duì)于基線，單詞錯(cuò)誤率(WER)相對(duì)改善18.6%。在某些情況下，它甚至可以減少29%的錯(cuò)誤。

他們寫道：“目標(biāo)是將一個(gè)受[文本]數(shù)據(jù)培訓(xùn)的模塊納入端到端框架，目的是糾正系統(tǒng)所犯的錯(cuò)誤。” “具體來說，我們使用文本到語(yǔ)音(TTS)系統(tǒng)調(diào)查使用不成對(duì)的......數(shù)據(jù)[生成]音頻信號(hào)，這個(gè)過程類似于機(jī)器翻譯中的反向翻譯。”

正如本文作者所解釋的那樣，大多數(shù)自動(dòng)語(yǔ)音識(shí)別(ASR)系統(tǒng)共同訓(xùn)練三個(gè)組成部分：一個(gè)學(xué)習(xí)音頻信號(hào)與構(gòu)成語(yǔ)音的語(yǔ)言單位之間關(guān)系的聲學(xué)模型，一個(gè)為單詞序列分配概率的語(yǔ)言模型，以及一種機(jī)制，用于對(duì)聲學(xué)幀和識(shí)別的符號(hào)進(jìn)行對(duì)齊。所有這三者都使用單個(gè)神經(jīng)網(wǎng)絡(luò)(以生物神經(jīng)元為模型的分層數(shù)學(xué)函數(shù))和轉(zhuǎn)錄的音頻 - 文本對(duì)，因此，當(dāng)語(yǔ)言模型遇到語(yǔ)料庫(kù)中不經(jīng)常出現(xiàn)的單詞時(shí)，通常會(huì)遭受性能下降。

然后，研究人員著手將上述拼寫校正模型納入ASR框架 - 一種將輸入和輸出句子解碼為稱為“詞組”的子詞單元的模型，它采用嵌入詞(即映射到向量的特征)實(shí)數(shù))并將它們映射到更高級(jí)別的表示。他們使用純文本數(shù)據(jù)和使用文本到語(yǔ)音(TTS)系統(tǒng)(并行WaveNet)生成的相應(yīng)合成音頻信號(hào)來訓(xùn)練LAS 語(yǔ)音識(shí)別器，這是2017年Google Brain研究人員首次描述的端到端模型，然后創(chuàng)建一組TTS對(duì)。然后，他們“教導(dǎo)”拼寫糾正器糾正識(shí)別器通過給它們提供的潛在錯(cuò)誤。

為了驗(yàn)證模型，研究人員訓(xùn)練了一個(gè)語(yǔ)言模型，生成了一個(gè)TTS數(shù)據(jù)集來訓(xùn)練LAS模型，并產(chǎn)生了錯(cuò)誤假設(shè)來訓(xùn)練拼寫校正模型，其中包含了來自LibriSpeech數(shù)據(jù)集的4000萬個(gè)文本序列，過濾掉了500,000個(gè)序列僅包含單字母單詞和短于90字的單詞。他們發(fā)現(xiàn)，通過糾正來自LAS的條目，語(yǔ)音校正模型可以生成具有“顯著”較低的字錯(cuò)誤率的擴(kuò)展輸出。

鄭重聲明：本文版權(quán)歸原作者所有，轉(zhuǎn)載文章僅為傳播更多信息之目的，如作者信息標(biāo)記有誤，請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除，多謝。