大多數(shù)的救火車都是紅色的,但是用藍(lán)色描繪一個并不難。電腦幾乎沒有創(chuàng)造力。
他們對世界的理解通常會從字面上被他們所訓(xùn)練的數(shù)據(jù)所著色。如果他們所看到的只是紅色消防車的照片,他們將無法繪制其他任何東西。
為了給計算機(jī)視覺模型一個更完整,更富想象力的世界視圖,研究人員試圖為它們提供更多不同的圖像。有些人嘗試從奇特的角度和不尋常的位置拍攝物體,以更好地傳達(dá)其真實世界的復(fù)雜性。其他人則要求模型使用稱為GAN或生成對抗網(wǎng)絡(luò)的人工智能形式生成自己的圖片。在這兩種情況下,目的都是為了填補(bǔ)圖像數(shù)據(jù)集的空白,以更好地反映三維世界,并減少面部和物體識別模型的偏倚。
在國際學(xué)習(xí)表示會議上的一項新研究中,麻省理工學(xué)院的研究人員提出了一種創(chuàng)造力測試,以了解GAN可以對給定圖像進(jìn)行細(xì)化處理。他們將模型 “引導(dǎo)” 到照片的主體中,并要求其在明亮的光線下,在空間中旋轉(zhuǎn)或以不同的顏色繪制特寫的物體和動物。
該模型的創(chuàng)建方式有些微妙,有時甚至令人驚訝。事實證明,這些變化緊密地追蹤了人類攝影師如何在鏡頭前構(gòu)圖場景。這些偏見被烘焙到基礎(chǔ)數(shù)據(jù)集中,并且該研究中提出的控制方法旨在使這些限制顯而易見。
麻省理工學(xué)院的研究科學(xué)家阿里·賈哈尼安說:“潛伏空間是圖像的DNA所在。” “我們證明,您可以直接進(jìn)入這個抽象空間,并控制您希望GAN表現(xiàn)出的特性,直到某一點。我們發(fā)現(xiàn)GAN的創(chuàng)造力受到其學(xué)習(xí)圖像多樣性的限制。” 賈哈尼(Jahanian)是該研究的合著者盧西·柴(Lucy Chai)參與的研究。麻省理工學(xué)院的學(xué)生,高級作者Phillip Isola,Bonnie and Marty(1964)Tenenbaum CD電氣工程和計算機(jī)科學(xué)助理教授。
研究人員將他們的方法應(yīng)用于已經(jīng)接受ImageNet 1400萬張照片訓(xùn)練的GAN。然后,他們測量了模型在變換不同類別的動物,物體和場景方面可以走多遠(yuǎn)。他們發(fā)現(xiàn),藝術(shù)冒險的程度因GAN試圖操縱的主題類型而異。
例如,一個上升的熱氣球比旋轉(zhuǎn)的比薩餅產(chǎn)生更多的醒目的姿勢。放大波斯貓而不是知更鳥時,情況也是如此,貓離觀察者越遠(yuǎn),它們?nèi)诨梢欢衙ぃB幾乎保持不變。他們發(fā)現(xiàn),模特高興地把汽車變成了藍(lán)色,將水母變成了紅色,但是它拒絕用標(biāo)準(zhǔn)顏色以外的任何顏色畫金翅雀或救火車。
GAN似乎還令人驚訝地適應(yīng)了某些景觀。當(dāng)研究人員提高一組山上照片的亮度時,該模型異想天開地向火山中噴出了火熱噴發(fā),但在阿爾卑斯山卻沒有一個地質(zhì)上較老的休眠親戚。好像GAN捕捉到的GAN會隨著白天到深夜的變化而變化,但似乎可以理解,只有火山在晚上變得更亮。
研究人員說,這項研究提醒人們,深度學(xué)習(xí)模型的輸出在多大程度上取決于其數(shù)據(jù)輸入。GAN憑借其從數(shù)據(jù)推斷和以新穎的方式可視化世界的能力而引起了情報研究人員的關(guān)注。
他們可以拍攝爆頭,然后將其轉(zhuǎn)換成文藝復(fù)興時期風(fēng)格的肖像或喜愛的名人。但是,盡管GAN能夠自己學(xué)習(xí)令人驚訝的細(xì)節(jié),例如如何將風(fēng)景分為云朵和樹木,或生成貼在人們腦海中的圖像,但它們?nèi)匀恢饕菙?shù)據(jù)的奴隸。他們的創(chuàng)作反映了成千上萬攝影師的偏見,無論是他們選擇的拍攝方式還是構(gòu)圖的方式。
芬蘭Aaalto大學(xué)教授,NVIDIA研究科學(xué)家Jaako Lehtinen表示:“我喜歡這項工作,是在看GAN所學(xué)到的陳述,并推動它揭示做出這些決定的原因。”研究。“ GAN令人難以置信,可以學(xué)習(xí)有關(guān)物理世界的各種事物,但是它們?nèi)匀粺o法像人類一樣以物理上有意義的方式表示圖像。”