對(duì)人類而言,這些答案顯而易見。然而,世界上最強(qiáng)大的圖像識(shí)別人工智能卻還無法解決上述難題。之所以會(huì)這樣,是因?yàn)槊恳粡堈掌冀?jīng)過精心挑選,專門用來“欺騙”圖像識(shí)別技術(shù)。這些照片來自一套專門的數(shù)據(jù)集,其中的7000張照片由加州大學(xué)伯克利分校、華盛頓大學(xué)以及芝加哥大學(xué)的研究人員們共同整理完成。
加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)博士生、論文作者Dan Hendrycks表示:“目前的(機(jī)器學(xué)習(xí))模型還不夠完善。雖然已經(jīng)有不少研究嘗試?yán)萌斯?shù)據(jù)提升模型的能力,但我們發(fā)現(xiàn),這些模型在面對(duì)某些真實(shí)數(shù)據(jù)(來自真實(shí)照片)時(shí)往往會(huì)出現(xiàn)嚴(yán)重且高度一致的錯(cuò)誤判斷。
為了解釋這個(gè)問題的重要意義,我們首先對(duì)圖像識(shí)別技術(shù)的發(fā)展做一下回顧。
過去幾年以來,圖像識(shí)別工具已經(jīng)變得越來越好,識(shí)別速度也越來越快。這在很大程度上要?dú)w功于斯坦福大學(xué)創(chuàng)建的,并且其規(guī)模仍在持續(xù)拓展的開放數(shù)據(jù)集ImageNet。該數(shù)據(jù)集目前已經(jīng)包含超過1400萬張照片,每張照片都配有“樹”、“天空”之類的標(biāo)記。這個(gè)龐大的數(shù)據(jù)庫成為人工智能重要的訓(xùn)練素材集合,也可以作為新AI系統(tǒng)的參考基準(zhǔn),用于訓(xùn)練系統(tǒng)進(jìn)行圖像識(shí)別。打個(gè)比方,它就像是一本專供幼兒學(xué)習(xí)新單詞的看圖學(xué)話繪本。目前,利用ImageNet訓(xùn)練出的人工智能擁有極高的準(zhǔn)確率,其物體識(shí)別精度可達(dá)95%,這一水平已經(jīng)優(yōu)于人類的圖像內(nèi)容分辨效果。
然而,解決這最后5%的準(zhǔn)確度缺口是個(gè)巨大的挑戰(zhàn)。自2017年以來,計(jì)算機(jī)在識(shí)別圖像的準(zhǔn)確度方面一直比較羸弱。正因?yàn)槿绱?,研究人員們才嘗試探索其中的原因——即計(jì)算機(jī)為什么無法解析某些特定圖像。
通過這套新的圖像集合,研究人員們以手工方式搜索Flickr(雅虎旗下的圖片分享網(wǎng)站),尋找可能會(huì)令A(yù)I軟件陷入混亂的照片。然后,他們利用由ImageNet數(shù)據(jù)集訓(xùn)練而成的AI模型進(jìn)行測(cè)試,如果模型確實(shí)無法識(shí)別照片內(nèi)容,則將其添加到這套名為ImageNet-A的新數(shù)據(jù)集內(nèi)(很明顯,這個(gè)名稱代表的就是反ImageNet之意)。在識(shí)別這7000張照片時(shí),AI的準(zhǔn)確度從90%迅速降低至2%。是的,您沒有看錯(cuò),世界上最先進(jìn)的視覺AI模型確實(shí)無法正確識(shí)別其中98%的照片。
至于AI系統(tǒng)為什么無法理解這些圖像,則是個(gè)相當(dāng)復(fù)雜的問題。
目前的AI訓(xùn)練基本上就是把大量數(shù)據(jù)投入“黑匣子”當(dāng)中——換句話說,我們只能根據(jù)最終結(jié)果來判斷其準(zhǔn)確性。比如,如果“黑匣子”見過足夠多樣的樹木圖像,它就會(huì)開始在新照片中認(rèn)出樹木對(duì)象,而我們就認(rèn)為訓(xùn)練獲得成功(這類重復(fù)任務(wù)被稱為機(jī)器學(xué)習(xí))。但問題是,我們并不知道AI是依靠哪些指標(biāo)識(shí)別樹木的——是形狀?顏色?背景?質(zhì)地?還是說樹木具有某種人類從未意識(shí)到的統(tǒng)一核心幾何樣式?對(duì)于這個(gè)問題,目前科學(xué)家們也回答不了。
總而言之,AI能力的判斷由結(jié)果實(shí)現(xiàn),而非通過推理過程實(shí)現(xiàn)。這意味著我們可能會(huì)從AI當(dāng)中發(fā)現(xiàn)種種令人意想不到的偏見,而這又進(jìn)一步影響到AI系統(tǒng)在無人駕駛汽車或者刑事司法領(lǐng)域的實(shí)際應(yīng)用。除此之外,這也意味著圖像識(shí)別系統(tǒng)并不算是真正實(shí)現(xiàn)的智能化,而更像是一種強(qiáng)大的匹配工具。
構(gòu)建ImageNet-A數(shù)據(jù)集,正是為了“欺騙”AI,從而總結(jié)為什么這些圖像會(huì)讓系統(tǒng)找不到正確答案。舉例來說,當(dāng)AI錯(cuò)把一張松鼠的圖片誤認(rèn)為是海獅時(shí),其缺少深層智慧與推理能力的問題就會(huì)被直接暴露出來。該系統(tǒng)可能僅依賴于這些動(dòng)物的紋理——而非對(duì)象的相對(duì)大小或形狀——進(jìn)行識(shí)別。Hendrycks表示:“那些需要根據(jù)物體形狀才能做出正確判斷的照片,似乎最有可能騙過AI模型。”
利用ImageNet-A,研究人員們成功從視覺AI當(dāng)中找到7000個(gè)盲點(diǎn)。但是,這是否意味著可以將這些圖像構(gòu)建成新的訓(xùn)練集,從而修復(fù)AI模型的這個(gè)大毛病?答案恐怕是否定的。Hendrycks指出,“由于現(xiàn)實(shí)世界中存在著大量多樣性與復(fù)雜性因素,因此利用這些圖像進(jìn)行訓(xùn)練可能無法教會(huì)模型如何真正可靠地管理全方位的視覺輸入信息。比方說,也許收集并標(biāo)記1萬億張圖像足以解決一部分模型盲點(diǎn),但當(dāng)出現(xiàn)新的場(chǎng)景或者環(huán)境發(fā)生變化時(shí),以往修復(fù)的各個(gè)盲點(diǎn)可能會(huì)再次暴露出來。”
換言之,簡(jiǎn)單將更多照片添加到機(jī)器學(xué)習(xí)數(shù)據(jù)集當(dāng)中,無法解決AI模型在邏輯層面的核心缺陷,畢竟總會(huì)出現(xiàn)計(jì)算機(jī)之前從未見過的圖像。那么,研究人員們?cè)撊绾谓鉀Q這最后5%的準(zhǔn)確性空白?Hendrycks解釋稱,他們需要在現(xiàn)代機(jī)器學(xué)習(xí)范圍之外開發(fā)出新的方法,從而創(chuàng)建起更加復(fù)雜的AI系統(tǒng)。而在他們實(shí)現(xiàn)這一目標(biāo)之前,人類仍然可以繼續(xù)保持一點(diǎn)小小的優(yōu)越感——截至當(dāng)下,AI在某些方面仍無法與人類相匹敵。