無論是語言,音樂,語音還是視頻,連續(xù)數(shù)據(jù)都不容易被AI和機(jī)器學(xué)習(xí)模型理解,尤其是當(dāng)它依賴于廣泛的周圍環(huán)境時(shí)。例如,如果某個(gè)人或物體在視頻中從視圖中消失后才出現(xiàn),那么很多算法都會(huì)忘記它的外觀。Google的研究人員著手使用Transformer解決此問題,Transformer的體系結(jié)構(gòu)可擴(kuò)展到數(shù)千個(gè)單詞,從而大大提高了歌曲創(chuàng)作,圖像合成,逐句文本翻譯和文檔摘要等任務(wù)的性能。
但是Transformer絕不是完美的-將其擴(kuò)展到更大的上下文可以明顯看出其局限性。使用大窗口的應(yīng)用程序?qū)?nèi)存的要求從千兆字節(jié)到TB級(jí)不等,這意味著模型只能吸收幾段文字或生成簡短的音樂。因此,Google今天推出了Reformer,這是Transformer的改進(jìn)版本,旨在處理多達(dá)100萬個(gè)單詞的上下文窗口。通過利用諸如位置敏感哈希(LSH)和可逆殘差層之類的技術(shù)來有效使用內(nèi)存并降低長序列的復(fù)雜性,它可以在僅使用16GB內(nèi)存的單個(gè)AI加速器芯片上運(yùn)行。
在4月在埃塞俄比亞的亞的斯亞貝巴舉行的2020年國際學(xué)習(xí)代表大會(huì)上,Reformer論文的演講之前,該代碼和一些 示例應(yīng)用程序已公開提供。
與所有深層神經(jīng)網(wǎng)絡(luò)一樣,變形金剛包含排列在互連層中的神經(jīng)元(數(shù)學(xué)功能),這些層傳輸來自輸入數(shù)據(jù)的信號(hào)并緩慢調(diào)整每個(gè)連接的突觸強(qiáng)度(權(quán)重)。這就是所有AI模型提取特征并學(xué)習(xí)進(jìn)行預(yù)測的方式,但是Transformer的獨(dú)特之處在于,每個(gè)輸出元素都連接到每個(gè)輸入元素。實(shí)際上,它們之間的權(quán)重是動(dòng)態(tài)計(jì)算的。
正如我的同事Khari Johnson 指出的那樣,2019年最大的機(jī)器學(xué)習(xí)趨勢(shì)之一就是基于這種Transformer設(shè)計(jì)的自然語言模型的持續(xù)增長和擴(kuò)散。谷歌開源的BERT,基于變壓器的模型,在2018年和一批發(fā)布今年表現(xiàn)最出色的車型,根據(jù) 膠排行榜 -包括Nvidia的威震天,谷歌的XLNet, 微軟的MT-DNN,以及Facebook的羅伯塔 -基于《變形金剛》。公司發(fā)言人最近告訴VentureBeat,XLNet 2將于本月晚些時(shí)候發(fā)布。
然后,Reformer計(jì)算與相似向量(用于表示機(jī)器學(xué)習(xí)中人類可讀數(shù)據(jù)的代數(shù)構(gòu)造)匹配的哈希函數(shù)(用于將任意大小的數(shù)據(jù)映射到固定大小的值的函數(shù)),而不是搜索所有可能的向量對(duì)。(例如,在翻譯任務(wù)中,來自網(wǎng)絡(luò)第一層的每個(gè)向量代表一個(gè)單詞,對(duì)應(yīng)于不同語言的相同單詞的向量可能會(huì)獲得相同的哈希值。)分配哈希后,序列會(huì)重新排列為將具有相同散列的元素放在一起并分成多個(gè)段以啟用并行處理。然后在這些短得多的段及其相鄰的相鄰段內(nèi)施加注意力,從而大大減少了計(jì)算量。
由于上述可逆存儲(chǔ)器,Reformer還可按需重新計(jì)算每個(gè)層的輸入,而不是將其存儲(chǔ)在內(nèi)存中。激活(確定網(wǎng)絡(luò)輸出,準(zhǔn)確性和計(jì)算效率的功能)來自網(wǎng)絡(luò)最后一層,用于從任何中間層恢復(fù)激活,每層使用兩組激活。一層從一層逐漸更新到下一層,而另一層僅捕獲對(duì)第一層的更改。
“由于Reformer具有如此高的效率,它可以直接應(yīng)用于上下文窗口遠(yuǎn)大于幾乎所有當(dāng)前最新文本域(數(shù)據(jù)集)的數(shù)據(jù),”Google研究人員?ukaszKaiser寫道以及加州大學(xué)伯克利分校的學(xué)生Nikita Kitaev在博客中發(fā)表的文章。“也許Reformer處理如此大的數(shù)據(jù)集的能力將刺激社區(qū)創(chuàng)建它們。”
該研究小組對(duì)基于改革者的圖像和文本模型進(jìn)行了實(shí)驗(yàn),使用它們來生成圖像中丟失的細(xì)節(jié)并處理整個(gè)小說《犯罪與處罰》(包含211,591個(gè)單詞)。他們表明,Reformer可以逐像素生成全幀圖像,并且可以在單輪訓(xùn)練中接受新穎長度的文本。
作者將將來的技術(shù)應(yīng)用到更長的序列,并改善對(duì)位置編碼的處理。“我們相信,Reformer為將來使用Transformer模型提供了基礎(chǔ),包括長文本和自然語言處理之外的應(yīng)用程序,” Kaiser和Kitaev補(bǔ)充說。
在去年年底的一次采訪中,谷歌AI負(fù)責(zé)人杰夫·迪恩(Jeff Dean)告訴VentureBeat,更大的背景將是谷歌未來工作的主要重點(diǎn)。他說:“我們?nèi)匀幌M軌蜃龈嗌舷挛南嚓P(guān)的模型。” “像現(xiàn)在這樣,BERT和其他模型可以很好地處理數(shù)百個(gè)單詞,但上下文上下文中不能使用10,000個(gè)單詞。因此,這是一個(gè)[有趣的方向。”
改革者似乎是朝這個(gè)方向邁出的有希望的第一步。