算法幫助AI在傳奇的Atari游戲中獲勝

2019-08-10 09:34:37    來源:    作者:

2015年,谷歌的DeepMind AI的任務(wù)是學(xué)習(xí)玩Atari視頻游戲。它也非常成功,在視頻彈球方面與人類玩家一樣出色。但由于游戲的復(fù)雜性,除了簡單的街機(jī)游戲之外,它開始掙扎,眾所周知甚至未能收集傳奇的20世紀(jì)80年代冒險(xiǎn)游戲Montezuma's Revenge中的第一把鑰匙。

然而,一種新方法導(dǎo)致了一種AI算法,該算法從錯(cuò)誤中學(xué)習(xí),并確定中間步驟的速度提高了10倍,在Google失敗并成功自主玩Montezuma's Revenge之后取得了成功。

這項(xiàng)工作由Fabio Zambetta及其團(tuán)隊(duì)在澳大利亞墨爾本的RMIT大學(xué)進(jìn)行。Zambetta 于2月1日在夏威夷舉行的第33屆AAAI人工智能會議上介紹了這一發(fā)現(xiàn)。

設(shè)計(jì)可以克服計(jì)劃問題的人工智能,例如獎(jiǎng)勵(lì)不是很明顯,是推動該領(lǐng)域最重要的挑戰(zhàn)之一。

人工智能在冒險(xiǎn)游戲中掙扎的原因是,在發(fā)現(xiàn)一些獎(jiǎng)勵(lì)之前,它認(rèn)為沒有動力選擇一種行動方式而不是其他任何一種方式,例如實(shí)現(xiàn)爬梯或跳過坑到達(dá)更大目標(biāo)的子目標(biāo)水平。

他們感到困惑并無法確定前進(jìn)的道路,而只是隨意開始行動。

對于某些游戲,例如彈球,獎(jiǎng)勵(lì)在附近,算法獲得所需的外部輸入。

然而,在一個(gè)冒險(xiǎn)游戲中,獎(jiǎng)勵(lì)更加分散,雞和蛋的情況發(fā)展。該程序發(fā)現(xiàn)自己無法改善其游戲玩法,直到獲得一些獎(jiǎng)勵(lì),但在改進(jìn)其游戲玩法之前不會找到獎(jiǎng)勵(lì)。

為了解決這個(gè)問題,Zambetta從其他電腦游戲中汲取靈感,如超級馬里奧和Pacman,并引入了顆粒獎(jiǎng)勵(lì),提供了小的中間獎(jiǎng)勵(lì),并鼓勵(lì)它探索和完成子目標(biāo)。

“真正聰明的人工智能需要能夠?qū)W會在模糊的環(huán)境中自主完成任務(wù),”他說。

“我們已經(jīng)證明,正確的算法可以使用更智能的方法改善結(jié)果,而不是純粹粗暴地在非常強(qiáng)大的計(jì)算機(jī)上端到端地解決問題。”

這種方法意味著算法將更自然地行動,并且完成子目標(biāo)的速度比其他AI方法快10倍。

“不僅我們的算法在玩Montezuma's Revenge時(shí)自動識別相關(guān)任務(wù)的速度比Google DeepMind快10倍,他們還表現(xiàn)出相對類似人類的行為,”Zambetta聲稱。

“例如,在你可以進(jìn)入游戲的第二個(gè)屏幕之前,你需要確定一些子任務(wù),例如爬梯子,跳過一個(gè)敵人,然后最終拿起鑰匙,大致按照這個(gè)順序。

“這最終會在很長一段時(shí)間后隨機(jī)發(fā)生,但在我們的測試中如此自然地發(fā)生了某種意圖。

“這使我們成為第一個(gè)完全自主的面向目標(biāo)的代理商,與這些游戲中最先進(jìn)的代理商真正競爭。”

雖然聽起來微不足道,但這項(xiàng)工作在游戲之外可能很重要。根據(jù)Zambetta的說法,激勵(lì)子目標(biāo)可能有利于控制自動駕駛汽車的算法以及需要機(jī)器人助手在現(xiàn)實(shí)世界中實(shí)現(xiàn)目標(biāo)的其他情況。

鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。