當(dāng)今的智能手機(jī)經(jīng)常使用人工智能(AI)來(lái)使我們拍攝的照片更清晰,更清晰。但是,如果可以使用這些AI工具從頭開(kāi)始創(chuàng)建整個(gè)場(chǎng)景呢?麻省理工學(xué)院和IBM的團(tuán)隊(duì)現(xiàn)在已經(jīng)使用“ GANpaint Studio”完成了這一任務(wù),該系統(tǒng)可以自動(dòng)生成逼真的攝影圖像并編輯其中的對(duì)象。研究人員說(shuō),除了幫助藝術(shù)家和設(shè)計(jì)師快速調(diào)整視覺(jué)效果外,這項(xiàng)工作還可以幫助計(jì)算機(jī)科學(xué)家識(shí)別“偽造”圖像。
David Bau博士 麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)的一名學(xué)生將這個(gè)項(xiàng)目描述為計(jì)算機(jī)科學(xué)家首次真正能夠“用神經(jīng)網(wǎng)絡(luò)的神經(jīng)元進(jìn)行繪畫(huà)”,特別是一種流行的網(wǎng)絡(luò),稱為“生成網(wǎng)絡(luò)”。對(duì)抗網(wǎng)絡(luò)(GAN)。
GANpaint Studio 作為交互式演示在線提供,用戶可以上傳自己選擇的圖像并修改其外觀的多個(gè)方面,從更改對(duì)象的大小到添加全新的項(xiàng)目(如樹(shù)木和建筑物)。
設(shè)計(jì)師的福音
該項(xiàng)目由MIT教授Antonio Torralba牽頭,是他領(lǐng)導(dǎo)的MIT-IBM Watson AI Lab的一部分,該項(xiàng)目具有廣泛的潛在應(yīng)用。設(shè)計(jì)師和藝術(shù)家可以使用它來(lái)更快地調(diào)整其視覺(jué)效果。使系統(tǒng)適應(yīng)視頻剪輯,將使計(jì)算機(jī)圖形編輯人員可以快速組合特定鏡頭所需的特定對(duì)象布置。(例如,想象一下,如果一個(gè)導(dǎo)演與演員一起拍攝了一個(gè)完整的場(chǎng)景,但是卻忘記在背景中包含一個(gè)對(duì)劇情很重要的對(duì)象。)
GANpaint Studio還可以通過(guò)分析需要?jiǎng)h除的“工件”單元,來(lái)改進(jìn)和調(diào)試正在開(kāi)發(fā)的其他GAN。在不透明的AI工具使圖像處理比以往更容易的世界中,它可以幫助研究人員更好地理解神經(jīng)網(wǎng)絡(luò)及其底層結(jié)構(gòu)。
“目前,機(jī)器學(xué)習(xí)系統(tǒng)就是這些黑匣子,我們并不總是知道如何改進(jìn)這些黑匣子,就像老式的電視機(jī)一樣,您必須將它們撞到一邊,” Bau說(shuō)。由Torralba監(jiān)督的團(tuán)隊(duì)撰寫(xiě)有關(guān)該系統(tǒng)的論文。“這項(xiàng)研究表明,盡管打開(kāi)電視并仔細(xì)查看所有電線可能會(huì)很嚇人,但那里會(huì)有很多有意義的信息。”
一個(gè)意外的發(fā)現(xiàn)是該系統(tǒng)實(shí)際上似乎已經(jīng)學(xué)習(xí)了一些有關(guān)對(duì)象之間關(guān)系的簡(jiǎn)單規(guī)則。它以某種方式知道不要在不屬于自己的地方放置某些東西,例如天空中的窗戶,并且它還會(huì)在不同的上下文中創(chuàng)建不同的視覺(jué)效果。例如,如果圖像中有兩個(gè)不同的建筑物,并且要求系統(tǒng)在兩個(gè)建筑物上都添加門(mén),則不只是添加相同的門(mén),它們最終看起來(lái)可能彼此完全不同。
“所有繪圖應(yīng)用程序都將遵循用戶的說(shuō)明,但是如果用戶命令將對(duì)象放置在不可能的位置,我們的應(yīng)用程序可能會(huì)決定不繪制任何內(nèi)容,” Torralba說(shuō)。“這是一個(gè)具有強(qiáng)烈個(gè)性的繪圖工具,它打開(kāi)了一個(gè)窗口,使我們能夠了解GAN如何學(xué)會(huì)代表視覺(jué)世界。”
GAN是為相互競(jìng)爭(zhēng)而開(kāi)發(fā)的神經(jīng)網(wǎng)絡(luò)集。在這種情況下,一個(gè)網(wǎng)絡(luò)是專注于創(chuàng)建逼真的圖像的生成器,第二個(gè)網(wǎng)絡(luò)是一個(gè)甄別器,其目標(biāo)是不被該生成器欺騙。鑒別器每次“捕獲”生成器時(shí),都必須公開(kāi)決策的內(nèi)部推理,這使生成器不斷變得更好。
芬蘭阿爾托大學(xué)副教授Jaakko Lehtinen說(shuō):“看到這項(xiàng)工作如何使我們直接看到GAN真正開(kāi)始學(xué)習(xí)一些常識(shí),真是令人難以置信。” 。“我認(rèn)為這種能力是擁有可以在人類世界中實(shí)際運(yùn)行的自治系統(tǒng)的關(guān)鍵墊腳石,它是無(wú)限,復(fù)雜和不斷變化的。”
刪除不需要的“假”圖像
該團(tuán)隊(duì)的目標(biāo)是使人們對(duì)GAN網(wǎng)絡(luò)有更多的控制權(quán)。但是他們認(rèn)識(shí)到,權(quán)力的增強(qiáng)會(huì)帶來(lái)濫用的可能性,例如使用此類技術(shù)來(lái)篡改照片。合著者朱俊彥說(shuō),他相信更好地了解GAN以及他們犯的錯(cuò)誤種類將有助于研究人員更好地杜絕偽造品。
CSAIL的博士后朱說(shuō):“在防御之前,您需要了解對(duì)手。” “這種了解可能會(huì)幫助我們更輕松地檢測(cè)偽造圖像。”
為了開(kāi)發(fā)該系統(tǒng),團(tuán)隊(duì)首先確定了GAN內(nèi)部與特定類型的對(duì)象(例如樹(shù)木)相關(guān)的單元。然后,它分別測(cè)試了這些單元,看清除它們是否會(huì)導(dǎo)致某些物體消失或出現(xiàn)。重要的是,他們還確定了導(dǎo)致視覺(jué)錯(cuò)誤(偽影)的單元,并努力將其移除以提高圖像的整體質(zhì)量。
IBM的合著者Hendrik Strobelt說(shuō):“每當(dāng)GAN生成極其不真實(shí)的圖像時(shí),這些錯(cuò)誤的原因就一直是個(gè)謎。” “我們發(fā)現(xiàn)這些錯(cuò)誤是由特定的神經(jīng)元集合觸發(fā)的,我們可以沉默這些神經(jīng)元來(lái)改善圖像質(zhì)量。”
Bau,Strobelt,Torralba和Zhu與前CSAIL博士共同撰寫(xiě)了這篇論文。學(xué)生Bolei Zhou,博士后研究員Jonas Wulff和本科生William Peebles。他們將在下個(gè)月于洛杉磯舉行的SIGGRAPH會(huì)議上介紹該文檔。Lehtinen說(shuō):“該系統(tǒng)為更好地理解GAN模型打開(kāi)了一扇門(mén),這將有助于我們進(jìn)行需要對(duì)GAN進(jìn)行的任何類型的研究。