OpenAI的最新研究將其機器學習代理置于一個簡單的捉迷藏游戲中,他們進行了一次巧妙的軍備競賽,以意想不到的方式使用對象來實現(xiàn)其可見或被看見的目的。這種自學成才的AI可能在現(xiàn)實世界中也很有用。
這項研究旨在并且成功地探究了機器學習代理學習復雜的,與現(xiàn)實世界相關(guān)的技術(shù)的可能性,而不會干擾研究人員的建議。
諸如識別照片中的物體或發(fā)明合理的人臉之類的任務既困難又有用,但它們并不能真正反映人們在現(xiàn)實世界中可能采取的行動。您可能會說,他們具有很高的智力,因此即使不離開計算機,也可以達到很高的效率。
試圖訓練AI使用機械臂來握住杯子并將其放入茶碟中的嘗試比人們想象的要困難得多(并且只有在非常特殊的情況下才能完成);現(xiàn)實,物理世界的復雜性使單純依靠計算機進行的任務學習變得幾乎不可能。
同時,中間任務不一定完全反映現(xiàn)實世界,但仍然可以與現(xiàn)實世界相關(guān)。一個簡單的方法可能是當出現(xiàn)多個相關(guān)物體或人物時如何改變機器人的臉。您無需進行一千次物理試驗就可以知道它應該自行旋轉(zhuǎn)還是可以旋轉(zhuǎn)相機,使其既可以看到又可以旋轉(zhuǎn),也可以在它們之間切換,等等。
OpenAI對其嬰兒ML代理的捉迷藏挑戰(zhàn)遵循以下原則:具有簡單規(guī)則的游戲環(huán)境(稱為Polyworld),但仍使用與現(xiàn)實世界相鄰的物理方法和輸入。如果AI可以自學導航簡化的現(xiàn)實,也許他們可以將這些技能(經(jīng)過一些修改)轉(zhuǎn)移到成熟的現(xiàn)實中。
無論如何,這就是實驗背后的想法,但它本身很有趣。游戲在一個由一些隨機生成的墻和物體組成的小型3D競技場中,使兩支隊伍相互對抗。在其中生成了多個代理,并給“隱藏者”幾秒鐘以熟悉環(huán)境和隱藏。它們還可以與對象互動,將它們推向四周并將它們鎖定在適當?shù)奈恢?。一?ldquo;搜索者”抬起頭,他們就有一定的時間發(fā)現(xiàn)它們。
機器學習程序所了解的全部是基本的感覺-每個代理都有一個世界觀以及一種告訴他們附近物體位置的“激光雷達”-以及他們可以移動物體的知識。但除此之外,他們只是獲得成功或?qū)ふ一蚨悴氐臋C會,這就是他們的動力。
從這些基本的開始就產(chǎn)生了有趣的結(jié)果。首先,團隊基本上是隨機移動的。但是,在數(shù)百萬場比賽中,藏身者發(fā)現(xiàn),通過以某種方式“粗暴”地逃跑,他們可以更頻繁地提高得分。于是軍備競賽開始了。
由于藏匿者逃跑了,搜尋者開始發(fā)展更有條理的追求行為。但是隨后出現(xiàn)了工具。
藏匿者發(fā)現(xiàn)他們可以在野外推拉物體,并開始在它們上面建造堡壘。
搜尋者的反應是使用在野外發(fā)現(xiàn)的坡道來提升物體并撞毀要塞。
當搜尋者仍在計數(shù)時,躲藏者開始尋找坡道,要么偷走它們,要么將它們鎖定在適當?shù)奈恢?對立團隊的特工無法撤消鎖定)。有趣的是,這涉及一定程度的分工,因為兩個藏匿者通常沒有足夠的時間出去尋找坡道。一個不得不準備要塞,而另一個要進行坡道巡邏。
OpenAI團隊以為這就是結(jié)局,但尋求者學會了利用游戲世界的意外功能。他們發(fā)現(xiàn)可以騎在盒子上面時“推”箱子,這意味著他們可以將其放在斜坡附近,爬上它,然后在整個田野上“沖浪”,找到那些頑皮的藏身處。
當然,藏身者的回應是鎖定了他們沒有用來建造堡壘的所有物品,這似乎是游戲中策略的終點。
那有什么意義呢?正如該論文的作者所解釋的那樣,這就是我們出現(xiàn)的方式。
由于自然選擇指導的生物之間的共同進化和競爭,地球上大量的復雜性和多樣性得到了發(fā)展。當出現(xiàn)新的成功策略或變異時,它會更改相鄰代理需要解決的隱式任務分配,并為適應帶來新的壓力。這些進化軍備競賽創(chuàng)建了隱式的自動課程,因此競爭主體不斷為彼此創(chuàng)建新任務。
在具有物理基礎(chǔ)和開放性的環(huán)境中引入自動課程可能最終使代理能夠獲得無數(shù)的與人相關(guān)的技能。
換句話說,讓AI模型以無人監(jiān)督的方式競爭可能是發(fā)展有用和強大技能的更好的方法,而不是讓它們自己四處閑逛,積累諸如探索環(huán)境百分比之類的抽象數(shù)字。
通過參數(shù)化和控制AI與環(huán)境的交互作用,人們越來越難甚至不可能指導AI的各個方面。對于像機器人在擁擠的環(huán)境中導航這樣的復雜任務,有太多因素導致人為設(shè)計行為可能永遠不會產(chǎn)生這些特工在日常生活中所必需的那種復雜性。
但是,正如我們在這里和GAN中所看到的那樣,它們可以互相教teach,一對決斗的AI在創(chuàng)建或檢測現(xiàn)實媒體時相互擊敗。OpenAI研究人員認為,在許多其他方法過于緩慢或結(jié)構(gòu)化的情況下,“多主體自動課程”或自教學代理是前進的道路。他們得出結(jié)論:
“這些結(jié)果激發(fā)了人們的信心,即在更加開放和多樣化的環(huán)境中,多主體動態(tài)可能會導致極其復雜且與人類相關(guān)的行為。”