這些天語(yǔ)音識(shí)別非常好。EdgeSpeechNet等最先進(jìn)的模型在去年年底的研究論文中有詳細(xì)介紹,能夠達(dá)到97%的準(zhǔn)確率。但即便是最好的系統(tǒng)也會(huì)偶然發(fā)現(xiàn)不常見的罕見詞匯。
為了縮小差距,谷歌和加利福尼亞大學(xué)的科學(xué)家提出了一種方法,可以利用純文本數(shù)據(jù)訓(xùn)練的拼寫校正模型。在預(yù)印本服務(wù)器Arxiv.org上發(fā)表的一篇論文(“ 用于端到端語(yǔ)音識(shí)別的拼寫校正模型 ”)中,他們報(bào)告說,在使用800字,960小時(shí)語(yǔ)言建模LibriSpeech數(shù)據(jù)集的實(shí)驗(yàn)中,他們的技術(shù)顯示相對(duì)于基線,單詞錯(cuò)誤率(WER)相對(duì)改善18.6%。在某些情況下,它甚至可以減少29%的錯(cuò)誤。
他們寫道:“目標(biāo)是將一個(gè)受[文本]數(shù)據(jù)培訓(xùn)的模塊納入端到端框架,目的是糾正系統(tǒng)所犯的錯(cuò)誤。” “具體來說,我們使用文本到語(yǔ)音(TTS)系統(tǒng)調(diào)查使用不成對(duì)的......數(shù)據(jù)[生成]音頻信號(hào),這個(gè)過程類似于機(jī)器翻譯中的反向翻譯。”
正如本文作者所解釋的那樣,大多數(shù)自動(dòng)語(yǔ)音識(shí)別(ASR)系統(tǒng)共同訓(xùn)練三個(gè)組成部分:一個(gè)學(xué)習(xí)音頻信號(hào)與構(gòu)成語(yǔ)音的語(yǔ)言單位之間關(guān)系的聲學(xué)模型,一個(gè)為單詞序列分配概率的語(yǔ)言模型,以及一種機(jī)制,用于對(duì)聲學(xué)幀和識(shí)別的符號(hào)進(jìn)行對(duì)齊。所有這三者都使用單個(gè)神經(jīng)網(wǎng)絡(luò)(以生物神經(jīng)元為模型的分層數(shù)學(xué)函數(shù))和轉(zhuǎn)錄的音頻 - 文本對(duì),因此,當(dāng)語(yǔ)言模型遇到語(yǔ)料庫(kù)中不經(jīng)常出現(xiàn)的單詞時(shí),通常會(huì)遭受性能下降。
然后,研究人員著手將上述拼寫校正模型納入ASR框架 - 一種將輸入和輸出句子解碼為稱為“詞組”的子詞單元的模型,它采用嵌入詞(即映射到向量的特征)實(shí)數(shù))并將它們映射到更高級(jí)別的表示。他們使用純文本數(shù)據(jù)和使用文本到語(yǔ)音(TTS)系統(tǒng)(并行WaveNet)生成的相應(yīng)合成音頻信號(hào)來訓(xùn)練LAS 語(yǔ)音識(shí)別器,這是2017年Google Brain研究人員首次描述的端到端模型,然后創(chuàng)建一組TTS對(duì)。然后,他們“教導(dǎo)”拼寫糾正器糾正識(shí)別器通過給它們提供的潛在錯(cuò)誤。
為了驗(yàn)證模型,研究人員訓(xùn)練了一個(gè)語(yǔ)言模型,生成了一個(gè)TTS數(shù)據(jù)集來訓(xùn)練LAS模型,并產(chǎn)生了錯(cuò)誤假設(shè)來訓(xùn)練拼寫校正模型,其中包含了來自LibriSpeech數(shù)據(jù)集的4000萬個(gè)文本序列,過濾掉了500,000個(gè)序列僅包含單字母單詞和短于90字的單詞。他們發(fā)現(xiàn),通過糾正來自LAS的條目,語(yǔ)音校正模型可以生成具有“顯著”較低的字錯(cuò)誤率的擴(kuò)展輸出。