深度學(xué)習(xí)正在應(yīng)用于越來越多的領(lǐng)域和行業(yè)。從無人駕駛汽車到播放Go,再到生成圖像的音樂,每天都會有新的深度學(xué)習(xí)模型出現(xiàn)。在這里,我們介紹幾種流行的深度學(xué)習(xí)模型。科學(xué)家和開發(fā)人員正在采用這些模型并以創(chuàng)新的方式對其進(jìn)行修改。我們希望這個展示會激發(fā)您的靈感,看看有什么可能。
神經(jīng)風(fēng)格
深度學(xué)習(xí)模型之旅
如果您曾經(jīng)使用過Instagram或Snapchat,那么您熟悉使用可以改變圖像亮度,飽和度,對比度等的濾鏡。神經(jīng)風(fēng)格,一種深度學(xué)習(xí)算法,超越了過濾器,允許您轉(zhuǎn)換一個圖像的風(fēng)格,也許是梵高的“星夜”,并將該風(fēng)格應(yīng)用到任何其他圖像上。
它是如何工作的?
神經(jīng)風(fēng)格使用深度神經(jīng)網(wǎng)絡(luò)來分離和重新組合任何兩個圖像的內(nèi)容和樣式。它是第一個提供創(chuàng)作藝術(shù)圖像算法的人工神經(jīng)網(wǎng)絡(luò)(ANN)之一。(要了解有關(guān)人工神經(jīng)網(wǎng)絡(luò)的更多信息,請參閱人工智能與神經(jīng)網(wǎng)絡(luò)有什么區(qū)別?)
該模型有兩個輸入圖像,一個用于樣式,另一個用于內(nèi)容。在卷積神經(jīng)網(wǎng)絡(luò)(CNN)層級中的每個處理階段,圖像被分成一組濾波圖像。雖然不同過濾器的數(shù)量沿著處理層級增加,但是過濾圖像的總體大小減小,導(dǎo)致每層網(wǎng)絡(luò)的單元總數(shù)減少。
深度學(xué)習(xí)模型之旅
上圖顯示了CNN中不同處理階段的信息。來自較低層(a,b,c)的內(nèi)容重建幾乎是原始圖像的精確復(fù)制品。然而,在網(wǎng)絡(luò)的較高層中,詳細(xì)的像素信息丟失,而高級結(jié)構(gòu)和細(xì)節(jié)保持相同(d,e)。同時,模型在內(nèi)容CNN表示之上捕獲另一輸入圖像的樣式。然后,樣式表示在CNN的不同層中的不同特征之間繪制連接。然后,模型在每個CNN層內(nèi)的內(nèi)容表示之上重建輸入圖像的樣式。當(dāng)您在網(wǎng)絡(luò)的層次結(jié)構(gòu)中移動時,這將創(chuàng)建與樣式相匹配的圖像。
神經(jīng)故事講述者
神經(jīng)故事講述者是一種模型,當(dāng)給出圖像時,可以生成關(guān)于圖像的浪漫故事。這是一個有趣的玩具,你可以想象未來,看看所有這些人工智能模型的發(fā)展方向。
深度學(xué)習(xí)模型之旅
我在同一時間看著河流,因為它已經(jīng)開始褪色。事實上,有很多次我想知道在我腦海里發(fā)生了什么。在遠(yuǎn)處,她從湖中撤出,進(jìn)入森林。她不知道該怎么辦他。事實上,他很可能會離開她。我母親的肢體語言告訴我她很漂亮,但大多數(shù)時候,我深吸一口氣。她可能想掛在懸崖上,把它留在一個地獄般的湖中
建筑師
構(gòu)建神經(jīng)網(wǎng)絡(luò)模型以實現(xiàn)目標(biāo)越來越多地涉及構(gòu)建更大和更復(fù)雜的流水線,其可以包括將不同算法混合和匹配在一起。神經(jīng)故事講述者由四個主要部分組成:跳過思維向量,圖像句子嵌入,樣式移位和條件神經(jīng)語言模型。
跳過思想向量
跳過思維向量是一種在無人監(jiān)督(從無標(biāo)簽數(shù)據(jù)推斷函數(shù))方式中對文本進(jìn)行編碼的方法。通過利用文本的連續(xù)性,系統(tǒng)以無人監(jiān)督的方式工作。對于文本中的任何給定句子,它會嘗試重建周圍的文本。對于神經(jīng)故事講述者,浪漫小說被轉(zhuǎn)換為跳過思維的向量。
深度學(xué)習(xí)模型之旅
圖像句子嵌入
構(gòu)建另一個單獨的模型,即視覺語義嵌入模型,以便在給定圖像時,輸出描述該圖像的句子。用于訓(xùn)練此數(shù)據(jù)集的數(shù)據(jù)集稱為MSCOCO。有許多模型已經(jīng)這樣做,例如Neural Talk。
有了這兩個模型,它們現(xiàn)在可以連接在一起,以獲得我們正在尋找的結(jié)果。寫的另一個程序基本上是這個函數(shù):
在此函數(shù)中,x表示圖像標(biāo)題,c表示“標(biāo)題樣式”,b表示“書籍樣式”。該功能的想法可以轉(zhuǎn)化為:保持標(biāo)題的“思想”,但將圖像標(biāo)題樣式替換為故事的標(biāo)題樣式。在函數(shù)c中,通過獲取為圖像生成的頂部MSCOCO標(biāo)題的平均值來生成標(biāo)題樣式。而b是浪漫小說段落的跳過思想向量的意思。
風(fēng)格轉(zhuǎn)移
上述功能是“風(fēng)格轉(zhuǎn)換”操作,允許模型將標(biāo)準(zhǔn)圖像標(biāo)題轉(zhuǎn)換為小說中的故事風(fēng)格。風(fēng)格轉(zhuǎn)換的靈感來自“藝術(shù)風(fēng)格的神經(jīng)算法”。
數(shù)據(jù)
此模型中使用了兩種主要的數(shù)據(jù)源。MSCOCO是Microsoft的數(shù)據(jù)集,包含大約300,000張圖像,每張圖像包含五個標(biāo)題。MSCOCO是唯一使用的監(jiān)督數(shù)據(jù),這意味著它是人類必須進(jìn)入并明確寫出每個圖像的字幕的唯一數(shù)據(jù)。
深度學(xué)習(xí)模型之旅
另一個數(shù)據(jù)源稱為BookCorpus。該模型是在BookCorpus的一部分上進(jìn)行訓(xùn)練的,特別是來自浪漫小說的1100萬段。但BookCorpus還包含冒險,科幻和其他類型的書籍。
角色RNN
前饋網(wǎng)絡(luò)與遞歸神經(jīng)網(wǎng)絡(luò)
直到最近,大多數(shù)計算機(jī)科學(xué)家已經(jīng)主要與前饋神經(jīng)網(wǎng)絡(luò)計算的預(yù)測問題,實驗,例如,是一個電子郵件消息垃圾郵件或不?在典型的前饋神經(jīng)網(wǎng)絡(luò)中,輸入被給予模型。然后,模型處理隱藏層中幕后的輸入并吐出輸出。隱藏層以一種金字塔結(jié)構(gòu)排列,其中每個較高層是基于來自每個連續(xù)下層的輸入和計算來計算的,但反之亦然(較高層級別不影響較低層)。例如,前饋網(wǎng)絡(luò)可用于確定圖像中的對象。較低層將分析對象的形狀和線條,而較高層將組合形狀并對對象進(jìn)行分類。
深度學(xué)習(xí)模型之旅
前饋神經(jīng)網(wǎng)絡(luò)的主要局限之一是它沒有記憶。每個預(yù)測都獨立于先前的計算,就好像它是網(wǎng)絡(luò)有史以來第一次也是唯一的預(yù)測。但對于許多任務(wù),例如翻譯句子或段落,輸入應(yīng)包括順序和上下文相關(guān)的數(shù)據(jù)。例如,如果沒有周圍單詞提供的上下文,就很難理解句子中的單個單詞。
深度學(xué)習(xí)模型之旅
RNN是不同的,因為它們在神經(jīng)元之間添加了另一組連接。這些鏈接允許來自隱藏層中的神經(jīng)元的激活在序列的下一步驟中反饋回自身。換句話說,在每個步驟中,隱藏層都從其下面的層接收激活,也從序列中的前一步驟接收激活。該結(jié)構(gòu)基本上給出了遞歸神經(jīng)網(wǎng)絡(luò)存儲器。因此,對于物體檢測的任務(wù),RNN可以利用其先前的狗的分類來幫助確定當(dāng)前圖像是否是狗。
Char-RNN TED
隱藏層中的這種靈活結(jié)構(gòu)允許RNN非常適合字符級語言模型。Char RNN最初由Andrej Karpathy創(chuàng)建,是一個模型,它將一個文本文件作為輸入并訓(xùn)練RNN以學(xué)習(xí)預(yù)測序列中的下一個字符。RNN可以逐字符地生成文本,看起來像原始訓(xùn)練數(shù)據(jù)。使用各種TED演講的成績單訓(xùn)練了一個演示。為模型提供一個或多個關(guān)鍵字,它將生成關(guān)于TED對話的語音/風(fēng)格中的關(guān)鍵字的段落。
結(jié)論
這些模型展示了機(jī)器智能方面的新突破,這些突破因深入學(xué)習(xí)而成為可能。深度學(xué)習(xí)表明,我們可以解決以前永遠(yuǎn)無法解決的問題,而且我們還沒有達(dá)到這個高原。由于深度學(xué)習(xí)創(chuàng)新,預(yù)計未來幾年會有更多令人興奮的事情,如無人駕駛汽車。