今天的智能手機(jī)通常使用人工智能(AI)來幫助我們拍攝更清晰,更清晰的照片。但是,如果可以使用這些AI工具從頭開始創(chuàng)建整個(gè)場景呢?
麻省理工學(xué)院和IBM的團(tuán)隊(duì)現(xiàn)在已經(jīng)完成了“ GANpaint Studio ”,這個(gè)系統(tǒng)可以自動(dòng)生成逼真的攝影圖像并編輯其中的對(duì)象。除了幫助藝術(shù)家和設(shè)計(jì)師快速調(diào)整視覺效果外,研究人員表示,這項(xiàng)工作可能有助于計(jì)算機(jī)科學(xué)家識(shí)別“虛假”圖像。
麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)博士生David Bau將該項(xiàng)目描述為計(jì)算機(jī)科學(xué)家首次能夠?qū)嶋H“用神經(jīng)元繪制神經(jīng)網(wǎng)絡(luò)”之一 - 特別是流行類型網(wǎng)絡(luò)稱為生成對(duì)抗網(wǎng)絡(luò)(GAN)。
GANpaint Studio 可在線獲取作為交互式演示,允許用戶上傳他們選擇的圖像并修改其外觀的多個(gè)方面,從更改對(duì)象的大小到添加全新的項(xiàng)目(如樹木和建筑物)。
設(shè)計(jì)師的恩惠
由麻省理工學(xué)院教授安東尼奧·托拉爾巴(Antonio Torralba)牽頭,作為麻省理工學(xué)院 - IBM沃森人工智能實(shí)驗(yàn)室的一部分,他指導(dǎo)該項(xiàng)目具有巨大的潛在應(yīng)用。設(shè)計(jì)師和藝術(shù)家可以使用它來更快地調(diào)整他們的視覺效果。使系統(tǒng)適應(yīng)視頻剪輯將使計(jì)算機(jī)圖形編輯器能夠快速組成特定鏡頭所需對(duì)象的特定排列。(想象一下,例如,如果一位導(dǎo)演拍攝了演員的完整場景,但忘記在背景中包含一個(gè)對(duì)劇情很重要的物體。)
通過分析需要?jiǎng)h除的“工件”單元,GANpaint Studio還可用于改進(jìn)和調(diào)試正在開發(fā)的其他GAN。在不透明的AI工具使圖像處理比以往更容易的世界中,它可以幫助研究人員更好地理解神經(jīng)網(wǎng)絡(luò)及其底層結(jié)構(gòu)。
“現(xiàn)在,機(jī)器學(xué)習(xí)系統(tǒng)就是這些黑盒子,我們并不總是知道如何改進(jìn),有點(diǎn)像那些你必須通過擊打它們而必須修復(fù)的舊電視機(jī),”Bau,相關(guān)的第一作者說。有關(guān)由Torralba監(jiān)督的團(tuán)隊(duì)的系統(tǒng)的論文。“這項(xiàng)研究表明,雖然開放電視并看看所有電線可能會(huì)讓人感到害怕,但那里會(huì)有很多有意義的信息。”
一個(gè)意外的發(fā)現(xiàn)是系統(tǒng)實(shí)際上似乎已經(jīng)學(xué)習(xí)了一些關(guān)于對(duì)象之間關(guān)系的簡單規(guī)則。它以某種方式知道不要將某些東西放在它不屬于的地方,就像天空中的窗戶一樣,它也會(huì)在不同的環(huán)境中創(chuàng)造出不同的視覺效果。例如,如果圖像中有兩個(gè)不同的建筑物,并且要求系統(tǒng)為兩者添加門,則不會(huì)簡單地添加相同的門 - 它們最終可能看起來彼此完全不同。
“所有繪圖應(yīng)用程序都將遵循用戶指令,但如果用戶命令將對(duì)象放在不可能的位置,我們可能決定不繪制任何內(nèi)容,”Torralba說。“這是一個(gè)具有強(qiáng)烈個(gè)性的繪圖工具,它打開了一個(gè)窗口,讓我們了解GAN如何學(xué)會(huì)代表視覺世界。”
GAN是為相互競爭而開發(fā)的一組神經(jīng)網(wǎng)絡(luò)。在這種情況下,一個(gè)網(wǎng)絡(luò)是專注于創(chuàng)建逼真圖像的生成器,第二個(gè)是鑒別器,其目標(biāo)是不被生成器欺騙。每次鑒別器“捕獲”發(fā)生器時(shí),它必須暴露內(nèi)部推理以做出決定,這使得發(fā)生器能夠不斷變得更好。
“看到這項(xiàng)工作如何讓我們直接看到GAN實(shí)際上學(xué)到的東西開始看起來有點(diǎn)像常識(shí),真是令人興奮,” 芬蘭阿爾托大學(xué)副教授Jaakko Lehtinen說,他沒有參與該項(xiàng)目。“我認(rèn)為這種能力是擁有可以在人類世界中發(fā)揮作用的自主系統(tǒng)的關(guān)鍵踏腳石,這種系統(tǒng)是無限的,復(fù)雜的,不斷變化的。”
剔除不需要的“假”圖像
該團(tuán)隊(duì)的目標(biāo)是讓人們更好地控制GAN網(wǎng)絡(luò)。但是他們認(rèn)識(shí)到,隨著權(quán)力的增加,濫用的可能性就像使用這些技術(shù)來醫(yī)生照片一樣。合著者朱俊艷表示,他相信更好地了解GAN - 以及他們所犯的錯(cuò)誤 - 將有助于研究人員更好地消除偽造。
“你需要先了解你的對(duì)手才能防御它,”CSAIL的博士后朱說。“這種理解可能有助于我們更輕松地檢測假圖像。”
為了開發(fā)該系統(tǒng),該團(tuán)隊(duì)首先確定了GAN內(nèi)部與特定類型的對(duì)象(如樹木)相關(guān)的單元。然后,它單獨(dú)測試這些單元,看看是否擺脫它們會(huì)導(dǎo)致某些物體消失或出現(xiàn)。重要的是,他們還確定了導(dǎo)致視覺錯(cuò)誤(工件)的單元,并努力將其移除以提高圖像的整體質(zhì)量。
IBM的研究科學(xué)家Hendrik Strobelt說:“每當(dāng)GAN產(chǎn)生非常不切實(shí)際的圖像時(shí),這些錯(cuò)誤的原因以前就是一個(gè)謎。” “我們發(fā)現(xiàn)這些錯(cuò)誤是由特定的神經(jīng)元觸發(fā)的,我們可以沉默,以提高圖像的質(zhì)量。”
Bau,Strobelt,Torralba和朱與前CSAIL博士生Bolei Zhou,博士后助理Jonas Wulff和本科生William Peebles共同撰寫了這篇論文。他們將于下個(gè)月在洛杉磯舉行的SIGGRAPH會(huì)議上發(fā)表演講。“這個(gè)系統(tǒng)為更好地理解GAN模型打開了一扇大門,這將有助于我們對(duì)GAN進(jìn)行任何類型的研究,”Lehtinen說。