你看一只貓的照片時(shí),你很可能會(huì)認(rèn)出這只動(dòng)物是生姜還是條紋 - 或圖像是黑白,斑點(diǎn),磨損還是褪色。你可能也會(huì)發(fā)現(xiàn)寵物被蜷縮在枕頭后面或者以模糊的動(dòng)作跳到臺(tái)面上。幾乎在任何情況下,你都會(huì)自然地學(xué)會(huì)識(shí)別一只貓。相比之下,由深度神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的機(jī)器視覺(jué)系統(tǒng)有時(shí)甚至在識(shí)別固定條件下的貓時(shí)表現(xiàn)優(yōu)于人類(lèi),但是甚至有點(diǎn)新奇,嘈雜或顆粒狀的圖像可以完全拋棄這些系統(tǒng)。
德國(guó)的一個(gè)研究小組現(xiàn)在發(fā)現(xiàn)了一個(gè)意想不到的原因:當(dāng)人類(lèi)關(guān)注圖像對(duì)象的形狀時(shí),深度學(xué)習(xí)計(jì)算機(jī)視覺(jué)算法通常會(huì)鎖定對(duì)象的紋理。
這一發(fā)現(xiàn)在5月舉行的國(guó)際學(xué)習(xí)代表大會(huì)上發(fā)表,強(qiáng)調(diào)了人與機(jī)器“思考”之間的鮮明對(duì)比,并說(shuō)明了我們的直覺(jué)如何誤導(dǎo)人工智能。它也可能暗示為什么我們自己的愿景會(huì)以它的方式發(fā)展。
與大象皮膚和飛機(jī)的貓由時(shí)鐘制成
例如,深度學(xué)習(xí)算法通過(guò)呈現(xiàn)具有數(shù)千個(gè)包含或不包含貓的圖像的神經(jīng)網(wǎng)絡(luò)來(lái)工作。系統(tǒng)在該數(shù)據(jù)中找到模式,然后用它來(lái)決定如何最好地標(biāo)記它以前從未見(jiàn)過(guò)的圖像。網(wǎng)絡(luò)的架構(gòu)在人類(lèi)視覺(jué)系統(tǒng)的架構(gòu)上松散地建模,因?yàn)樗倪B接層讓它從圖像中提取越來(lái)越抽象的特征。但是這個(gè)系統(tǒng)通過(guò)一個(gè)黑盒子過(guò)程使得它能夠通過(guò)黑盒子過(guò)程得到正確的答案,人類(lèi)只能在事后解釋。“我們一直試圖找出導(dǎo)致這些深度學(xué)習(xí)計(jì)算機(jī)視覺(jué)算法成功的原因,以及導(dǎo)致它們脆弱的原因,” Thomas Dietterich說(shuō)道。,俄勒岡州立大學(xué)的計(jì)算機(jī)科學(xué)家,沒(méi)有參與這項(xiàng)新研究。
為此,一些研究人員更愿意研究當(dāng)他們通過(guò)修改圖像欺騙網(wǎng)絡(luò)時(shí)會(huì)發(fā)生什么。他們發(fā)現(xiàn),非常小的變化可能導(dǎo)致系統(tǒng)完全錯(cuò)誤地標(biāo)記圖像中的對(duì)象 - 而且大的變化有時(shí)可能無(wú)法使系統(tǒng)完全修改其標(biāo)簽。與此同時(shí),其他專家通過(guò)網(wǎng)絡(luò)進(jìn)行了回溯,分析了個(gè)體“神經(jīng)元”在圖像中的響應(yīng),生成了系統(tǒng)所學(xué)習(xí)的特征的“ 激活圖集 ”。
但計(jì)算神經(jīng)科學(xué)家Matthias Bethge實(shí)驗(yàn)室的一組科學(xué)家和德國(guó)蒂賓根大學(xué)的心理物理學(xué)家Felix Wichmann采取了更為定性的方法。去年,該團(tuán)隊(duì)報(bào)告稱,當(dāng)他們?cè)谟商囟ㄔ肼暯导?jí)的圖像上訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),在對(duì)經(jīng)歷過(guò)相同類(lèi)型失真的新圖像進(jìn)行分類(lèi)時(shí),它比人類(lèi)更好。但是這些圖像在以稍微不同的方式改變時(shí),完全欺騙了網(wǎng)絡(luò),即使新的扭曲看起來(lái)與人類(lèi)的舊扭曲幾乎相同。
為了解釋這個(gè)結(jié)果,研究人員想到即使是很小的噪音水平,質(zhì)量變化最大。紋理似乎是明顯的選擇。“如果長(zhǎng)時(shí)間添加大量噪音,物體的形狀或多或少完好無(wú)損,” Bethge和Wichmann實(shí)驗(yàn)室的研究生,該研究的第一作者Robert Geirhos說(shuō)。但是“圖像中的局部結(jié)構(gòu) - 當(dāng)你添加一點(diǎn)噪音時(shí)會(huì)變得極其扭曲。”因此他們提出了一種巧妙的方法來(lái)測(cè)試人類(lèi)和深度學(xué)習(xí)系統(tǒng)如何處理圖像。
Geirhos,Bethge和他們的同事創(chuàng)造了包含兩個(gè)相互沖突的線索的圖像,其中一個(gè)物體取自一個(gè)物體,一個(gè)物體取自另一個(gè)物體:例如,用大象皮膚的裂紋灰色紋理著色的貓的輪廓,或者制作熊鋁罐,或充滿重疊鐘面的飛機(jī)輪廓。提供了數(shù)百?gòu)堖@些圖像,人類(lèi)根據(jù)它們的形狀 - 貓,熊,飛機(jī) - 幾乎每次都按照預(yù)期標(biāo)記它們。然而,四種不同的分類(lèi)算法傾向于另一種方式,吐出反映物體紋理的標(biāo)簽:大象,罐頭,時(shí)鐘。
“這正在改變我們對(duì)深度前饋神經(jīng)網(wǎng)絡(luò)的理解 - 開(kāi)箱即用,或者他們通常訓(xùn)練的方式 - 進(jìn)行視覺(jué)識(shí)別,” 哥倫比亞大學(xué)計(jì)算神經(jīng)科學(xué)家Nikolaus Kriegeskorte說(shuō),他沒(méi)有參與研究。
奇怪的是人工智能首先看起來(lái)對(duì)紋理的偏好可能看起來(lái)很有意義。“你可以把紋理看作一個(gè)精細(xì)的形狀,”Kriegeskorte說(shuō)。系統(tǒng)鎖定的精細(xì)比例更容易:具有紋理信息的像素?cái)?shù)遠(yuǎn)遠(yuǎn)超過(guò)構(gòu)成對(duì)象邊界的像素?cái)?shù),網(wǎng)絡(luò)的第一步涉及檢測(cè)線條和邊緣等局部特征。“這就是紋理,” 多倫多約克大學(xué)的計(jì)算視覺(jué)科學(xué)家John Tsotsos說(shuō),他也沒(méi)有參與新的工作。例如,“所有線段的分組都以相同的方式排列。”
Geirhos和他的同事已經(jīng)證明,這些本地功能足以讓網(wǎng)絡(luò)執(zhí)行圖像分類(lèi)任務(wù)。事實(shí)上,Bethge和該研究的另一位作者,博士后研究員維蘭德·布倫德?tīng)?Wieland Brendel)在5月的會(huì)議上提交的一篇論文中將這一點(diǎn)推向了家。。在這項(xiàng)工作中,他們構(gòu)建了一個(gè)深度學(xué)習(xí)系統(tǒng),在深度學(xué)習(xí)出現(xiàn)之前就像分類(lèi)算法一樣操作 - 就像一個(gè)“功能包”。它將圖像分割成微小的補(bǔ)丁,就像當(dāng)前的模型一樣(就像Geirhos那樣)在他的實(shí)驗(yàn)中使用)最初會(huì),但是,然后,不是逐步整合這些信息以提取更高級(jí)別的功能,而是立即決定每個(gè)小補(bǔ)丁的內(nèi)容(“這個(gè)補(bǔ)丁包含自行車(chē)的證據(jù),該補(bǔ)丁包含證據(jù)一只鳥(niǎo)”)。它只是將這些決定加在一起以確定對(duì)象的身份(“更多補(bǔ)丁包含自行車(chē)的證據(jù),因此這是自行車(chē)的圖像”),而不考慮補(bǔ)丁之間的全局空間關(guān)系。然而它能夠以驚人的準(zhǔn)確度識(shí)別物體。
Brendel說(shuō):“這挑戰(zhàn)了深度學(xué)習(xí)與先前模型完全不同的假設(shè)”。“顯然......有一個(gè)飛躍。我只是建議這種飛躍并不像有些人所希望的那樣。“
根據(jù)約克大學(xué)和多倫多大學(xué)的博士后研究員Amir Rosenfeld的說(shuō)法, 他們沒(méi)有參與這項(xiàng)研究,但我們認(rèn)為網(wǎng)絡(luò)應(yīng)該做的和他們實(shí)際做的事情之間仍存在“巨大的差異”,包括他們的復(fù)制情況。人類(lèi)行為。
布倫德?tīng)柋磉_(dá)了類(lèi)似的觀點(diǎn)。他說(shuō),很容易假設(shè)神經(jīng)網(wǎng)絡(luò)將像人類(lèi)一樣解決任務(wù)。“但我們傾向于忘記還有其他方式。”
一個(gè)更加人性化的推動(dòng)
當(dāng)前的深度學(xué)習(xí)方法可以將紋理等局部特征整合到更多的全局模式中,如形狀 “在這些論文中有點(diǎn)令人驚訝的是,并且非常引人注目地證明,雖然架構(gòu)允許這樣做,但如果你只是訓(xùn)練它(以對(duì)標(biāo)準(zhǔn)圖像進(jìn)行分類(lèi)),它就不會(huì)自動(dòng)發(fā)生,”Kriegeskorte說(shuō)。
Geirhos希望看到當(dāng)團(tuán)隊(duì)強(qiáng)迫他們的模型忽略紋理時(shí)會(huì)發(fā)生什么。該團(tuán)隊(duì)采用傳統(tǒng)上用于訓(xùn)練分類(lèi)算法的圖像,并以不同的樣式“繪制”它們,基本上剝離了它們有用的紋理信息。當(dāng)他們?cè)谛聢D像上重新訓(xùn)練每個(gè)深度學(xué)習(xí)模型時(shí),系統(tǒng)開(kāi)始依賴于更大,更全局的模式,并且表現(xiàn)出更像人類(lèi)的形狀偏差。
當(dāng)發(fā)生這種情況時(shí),算法在分類(lèi)噪聲圖像方面也變得更好,即使它們沒(méi)有經(jīng)過(guò)訓(xùn)練來(lái)處理這些類(lèi)型的失真。“基于形狀的網(wǎng)絡(luò)免費(fèi)提供更強(qiáng)大的功能,”Geirhos說(shuō)。“這告訴我們,對(duì)于特定任務(wù),只有正確的偏見(jiàn),在這種情況下,形狀偏差,對(duì)于推廣到新穎的設(shè)置有很大幫助。”
它還暗示人類(lèi)可能會(huì)自然地產(chǎn)生這種偏見(jiàn),因?yàn)榧词乖谛缕婊蜞须s的情況下,形狀也是一種更加健壯的方式來(lái)定義我們所看到的東西。人類(lèi)生活在一個(gè)三維世界中,在許多不同條件下從多個(gè)角度看物體,而我們的其他感官,如觸摸,可以根據(jù)需要促進(jìn)物體識(shí)別。因此,我們的愿景是優(yōu)先考慮形狀優(yōu)于紋理。(此外,一些心理學(xué)家已經(jīng)表明了語(yǔ)言,學(xué)習(xí)和人類(lèi)形態(tài)偏見(jiàn)之間的聯(lián)系:當(dāng)幼兒接受訓(xùn)練時(shí),通過(guò)學(xué)習(xí)某些類(lèi)別的單詞來(lái)更多地關(guān)注形狀,他們后來(lái)能夠開(kāi)發(fā)出更大的名詞或?qū)ο笤~匯量比未接受培訓(xùn)的孩子多。)
Wichmann說(shuō),這項(xiàng)工作提醒人們“數(shù)據(jù)會(huì)產(chǎn)生比我們認(rèn)為的更多的偏見(jiàn)和影響”。這不是研究人員第一次遇到這個(gè)問(wèn)題:面部識(shí)別程序,自動(dòng)招聘算法和其他神經(jīng)網(wǎng)絡(luò)以前已被證明對(duì)意外特征給予了太多的重視,因?yàn)樗麄兘邮苡?xùn)練的數(shù)據(jù)存在根深蒂固的偏見(jiàn)。從他們的決策過(guò)程中消除那些不必要的偏見(jiàn)已經(jīng)證明是困難的,但Wichmann說(shuō)新的工作表明它是可能的,他覺(jué)得這是令人鼓舞的。
然而,即使是Geirhos關(guān)注形狀的模型也可能被圖像中的過(guò)多噪聲或特定的像素變化所擊敗 - 這表明它們距離實(shí)現(xiàn)人類(lèi)視覺(jué)還有很長(zhǎng)的路要走。(同樣,Tsosenos 實(shí)驗(yàn)室的研究生Rosenfeld,Tsotsos和Markus Solbach 最近也發(fā)表研究表明機(jī)器學(xué)習(xí)算法不能像人類(lèi)那樣察覺(jué)不同圖像之間的相似性。)不過(guò),通過(guò)這樣的研究,“你“這些模型尚未捕捉人類(lèi)大腦重要機(jī)制的位置,”Kriegeskorte說(shuō)。并且“在某些情況下,”Wichmann說(shuō),“或許查看數(shù)據(jù)集更為重要。”
Sanja Fidler多倫多大學(xué)的計(jì)算機(jī)科學(xué)家沒(méi)有參加這項(xiàng)研究,他同意了。“這取決于我們?cè)O(shè)計(jì)聰明的數(shù)據(jù),聰明的任務(wù),”她說(shuō)。她和她的同事正在研究如何給予神經(jīng)網(wǎng)絡(luò)輔助任務(wù)可以幫助他們完成主要功能。受Geirhos調(diào)查結(jié)果的啟發(fā),他們最近訓(xùn)練了一種圖像分類(lèi)算法,不僅可以識(shí)別物體本身,還可以識(shí)別哪些像素是其輪廓或形狀的一部分。網(wǎng)絡(luò)在常規(guī)對(duì)象識(shí)別任務(wù)中自動(dòng)變得更好。“只要完成一項(xiàng)任務(wù),你就會(huì)受到選擇性的關(guān)注,并對(duì)許多不同的事情視而不見(jiàn),”菲德勒說(shuō)。“如果我給你多個(gè)任務(wù),你可能會(huì)發(fā)現(xiàn)更多的事情,而這可能不會(huì)發(fā)生。這些算法也是如此。