亞馬遜的Alexa Speech團(tuán)隊(duì)科學(xué)家今天宣布,他們已經(jīng)使用了他們認(rèn)為有史以來(lái)最大的無(wú)標(biāo)簽數(shù)據(jù)集之一,用于訓(xùn)練聲學(xué)模型并提高智能助理理解人聲的能力。
使用半監(jiān)督學(xué)習(xí),一種結(jié)合人和機(jī)器標(biāo)記用于訓(xùn)練AI模型的數(shù)據(jù)的方法,亞馬遜科學(xué)家能夠訓(xùn)練模型并將語(yǔ)音識(shí)別錯(cuò)誤率降低10-22%,而單純依靠監(jiān)督的方法學(xué)習(xí)。在噪聲較大的音頻中可以看到語(yǔ)音識(shí)別錯(cuò)誤減少的更大收益。
聲學(xué)模型用7,000小時(shí)的標(biāo)記數(shù)據(jù)訓(xùn)練,然后用100萬(wàn)小時(shí)的未注釋或未標(biāo)記的數(shù)據(jù)訓(xùn)練。聲學(xué)模型是一系列AI系統(tǒng)之一,它為自動(dòng)語(yǔ)音識(shí)別提供動(dòng)力,將語(yǔ)音命令轉(zhuǎn)換為計(jì)算機(jī)的動(dòng)作。
“我們目前正在努力將新模型整合到Alexa中,預(yù)計(jì)發(fā)布日期為今年晚些時(shí)候,”Alexa高級(jí)應(yīng)用科學(xué)家Hari Parthasarathi在一篇博文中表示。
這項(xiàng)工作將于下個(gè)月在英國(guó)布萊頓舉行的IEEE國(guó)際聲學(xué),語(yǔ)音和信號(hào)處理會(huì)議上發(fā)表。
Alexa理解人聲的能力的這些進(jìn)步是通過(guò)使用稱(chēng)為師生培訓(xùn)的長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)的方法實(shí)現(xiàn)的。“老師”經(jīng)過(guò)培訓(xùn),可以理解30毫秒的音頻塊,然后將一些理解傳遞給使用未標(biāo)記數(shù)據(jù)的“學(xué)生”網(wǎng)絡(luò)。
應(yīng)用了許多其他技術(shù)來(lái)優(yōu)化或加速模型訓(xùn)練,例如分析學(xué)生模型音頻一次而不是兩次,交錯(cuò)或混合兩種模型,并在訓(xùn)練期間僅存儲(chǔ)20種概率最高的教師模型輸出,而不是結(jié)果分為3,000個(gè)不同的集群。然后,學(xué)生模型必須嘗試準(zhǔn)確匹配盡可能多的20個(gè)概率。
“7,000小時(shí)的注釋數(shù)據(jù)比機(jī)器標(biāo)記的數(shù)據(jù)更準(zhǔn)確,因此在訓(xùn)練學(xué)生時(shí),我們將兩者交錯(cuò)。我們的直覺(jué)是,如果機(jī)器標(biāo)記的數(shù)據(jù)開(kāi)始以錯(cuò)誤的方向引導(dǎo)模型,注釋的數(shù)據(jù)可以提供路線校正,“帖子讀取。
今天的新聞是在2月份宣布將語(yǔ)音識(shí)別錯(cuò)誤率降低20%與其他半監(jiān)督學(xué)習(xí)方法,以及使雙麥克風(fēng)陣列比七麥克風(fēng)陣列更有效的進(jìn)展,本周早些時(shí)候宣布。