人工智能的最重要的理論家和最近的圖靈獎獲得者 - 向?qū)W生Sara Sabour和Nicholas Frosst提出了一個名為CapsNet的機器學習架構(gòu),這是一種經(jīng)過歧視訓練的多層方法,實現(xiàn)了最先進的技術(shù)?;诹餍谢鶞实膱D像分類性能。在他們最初工作的后續(xù)工作中,Hinton,Sabour和本周牛津機器人研究所的研究人員詳細介紹了一種膠囊網(wǎng)絡(luò)的版本,該網(wǎng)絡(luò)在無人監(jiān)督的分類任務(wù)中勝出領(lǐng)先的算法。
他們的工作在預(yù)印本服務(wù)器Arxiv.org上發(fā)表的論文(“ Stacked Capsule Autoencoders ”)中有所描述。
對于不熟悉的人來說,膠囊系統(tǒng)通過幾何地解釋其相互關(guān)聯(lián)的部分的有組織的集合來理解對象。針對各種對象屬性(如位置,大小和色調(diào))單獨激活的數(shù)學函數(shù)(膠囊)的集合被添加到卷積神經(jīng)網(wǎng)絡(luò)(一種通常用于分析視覺圖像的AI模型)上,并且它們的一些輸出是重用以形成更高階膠囊的更“穩(wěn)定”的表示。由于這些表示在整個過程中保持完整,因此膠囊系統(tǒng)可以利用它們來識別對象,即使在視點發(fā)生變化時也是如此,例如當交換或轉(zhuǎn)換部件的位置時。
關(guān)于膠囊系統(tǒng)的另一個獨特之處 他們注意路線。與所有深度神經(jīng)網(wǎng)絡(luò)一樣,膠囊的功能被安排在互連層中,從輸入數(shù)據(jù)傳輸“信號”并緩慢調(diào)整每個連接的突觸強度 - 權(quán)重。(這就是他們?nèi)绾翁崛√卣鞑W習如何進行預(yù)測。)但是在涉及膠囊的情況下,權(quán)重是根據(jù)前一層函數(shù)預(yù)測下一層輸出的能力動態(tài)計算的。
Hinton及其同事最近的研究工作是研究一種神經(jīng)編碼器,它可以查看圖像樣本并嘗試消除物體的存在和姿勢。它使用解碼器進行訓練,該解碼器使用姿勢預(yù)測的混合來預(yù)測已經(jīng)發(fā)現(xiàn)的圖像部分的姿勢(通過自動編碼器分割),并且將每個圖像像素建模為由變換部分做出的預(yù)測的混合。然后在未標記的數(shù)據(jù)上學習膠囊系統(tǒng),并且將存在的向量(數(shù)學表示)聚集在一起以捕獲整個對象和部分之間的空間關(guān)系。
共同作者注意到,對象膠囊的存在概率向量更有可能形成緊密的聚類,并且為每個緊密聚類分配一個類會在街景房號數(shù)據(jù)集(a)上進行無監(jiān)督分類,從而產(chǎn)生最先進的結(jié)果。來自Google街景圖像的超過600,000個房屋號碼真實圖像的數(shù)據(jù)集)。此外,這種實現(xiàn)導致MNIST(一種手寫數(shù)字語料庫)的近乎最先進的結(jié)果,并且通過少于300個參數(shù)進一步改善了性能。