人工智能機(jī)器人可以在多人隱藏角色游戲中完勝人類

2020-02-05 16:46:00 來源：作者：

該機(jī)器人使用演繹推理來識別朋友或敵人，以確保在某些在線游戲中戰(zhàn)勝人類。

麻省理工學(xué)院的研究人員已經(jīng)開發(fā)出一種配備了人工智能的機(jī)器人，該機(jī)器人可以在棘手的在線多人游戲中擊敗人類玩家，而其中的玩家角色和動機(jī)是秘密的。

已經(jīng)建立了許多游戲機(jī)器人來跟上人類玩家的步伐。今年早些時候，卡內(nèi)基梅隆大學(xué)的一個團(tuán)隊(duì)開發(fā)了世界上第一個可以擊敗多人撲克專業(yè)人士的機(jī)器人。DeepMind的AlphaGo在2016年成為頭條新聞，以擊敗專業(yè)的Go玩家。還建立了一些機(jī)器人來擊敗職業(yè)棋手或聯(lián)手合作游戲，例如在線奪旗。但是，在這些游戲中，機(jī)器人從一開始就了解其對手和隊(duì)友。

在下個月的神經(jīng)信息處理系統(tǒng)大會上，研究人員將展示DeepRole，這是首款可以贏得在線多人游戲的游戲機(jī)器人，參與者最初對團(tuán)隊(duì)的忠誠度尚不清楚。該機(jī)器人的設(shè)計(jì)是將新穎的“演繹推理”添加到通常用于玩撲克的AI算法中。這有助于其推理出部分可觀察的動作，從而確定給定玩家是隊(duì)友或?qū)κ值目赡苄?。這樣，它可以快速了解與誰結(jié)盟以及采取哪些行動來確保其團(tuán)隊(duì)的勝利。

研究人員在超過4,000回合的在線游戲“抵抗：阿瓦隆”中將DeepRole與人類玩家進(jìn)行了比較。在該游戲中，玩家嘗試隨著游戲的進(jìn)行推斷出同齡人的秘密角色，同時隱藏自己的角色。作為隊(duì)友和對手，DeepRole始終優(yōu)于人類選手。

“如果用機(jī)器人代替人類的隊(duì)友，則可以期望團(tuán)隊(duì)獲得更高的獲勝率。機(jī)器人是更好的合作伙伴。”第一作者杰克·塞里諾(Jack Serrino '18)說，他是麻省理工學(xué)院電氣工程和計(jì)算機(jī)科學(xué)專業(yè)的學(xué)生，??是狂熱的在線“阿瓦隆”玩家。

這項(xiàng)工作是一個更廣泛的項(xiàng)目的一部分，該項(xiàng)目旨在更好地模擬人類如何做出具有社會根據(jù)的決定。這樣做可以幫助構(gòu)建更好地理解，學(xué)習(xí)人類并與人類合作的機(jī)器人。

人工智能機(jī)器人可以在多人隱藏角色游戲中完勝人類

“人類向他人學(xué)習(xí)并與他人合作，使我們能夠共同實(shí)現(xiàn)我們一個人無法獨(dú)自完成的事情，”合著者馬克斯·克萊曼·魏納(Max Kleiman-Weiner)說，他是大腦，思維與機(jī)器中心和美國國防部的博士后。麻省理工學(xué)院和哈佛大學(xué)的腦與認(rèn)知科學(xué)。“像“阿瓦隆”這樣的游戲可以更好地模仿人類在日常生活中所經(jīng)歷的動態(tài)社交環(huán)境。無論是在幼兒園的第一天還是在辦公室的第二天，您都必須弄清楚誰在團(tuán)隊(duì)中并會與您一起工作。”

哈佛大學(xué)的David C.Parkes和計(jì)算機(jī)認(rèn)知科學(xué)教授，麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室以及腦，思維和機(jī)器中心的成員Joshua B.Tenenbaum和Serrino和Kleiman-Weiner一起加入了本文。

演繹機(jī)器人

在“阿瓦隆”中，三名球員被隨機(jī)秘密地分配給“抵抗”隊(duì)，兩名球員被分配給“間諜”隊(duì)。兩名間諜玩家都知道所有玩家的角色。在每個回合中，一個玩家提議一個由兩個或三個玩家組成的子集來執(zhí)行任務(wù)。所有參與者同時公開投票批準(zhǔn)或拒絕該子集。如果獲得多數(shù)同意，則子集會秘密確定任務(wù)是成功還是失敗。如果選擇兩個“成功”，則任務(wù)成功。如果選擇一個“失敗”，則任務(wù)失敗。反抗玩家必須始終選擇成功，但間諜玩家可以選擇任一個結(jié)果。抵抗隊(duì)在成功完成三個任務(wù)后獲勝;在執(zhí)行了三個失敗的任務(wù)后，間諜團(tuán)隊(duì)獲勝。

贏得游戲基本上歸結(jié)為推論誰是反抗或間諜，然后投票給您的合作者。但這實(shí)際上比下棋和撲克更加復(fù)雜。Kleiman-Weiner說：“這是一個信息不完善的游戲。” “您甚至不確定一開始就反對誰，因此還有一個發(fā)現(xiàn)階段，尋找與誰合作。”

DeepRole使用一種稱為“反事實(shí)后悔最小化”(CFR)的游戲計(jì)劃算法，該算法通過反復(fù)與自己對戰(zhàn)來學(xué)習(xí)游戲，并增加了演繹推理。在游戲的每個點(diǎn)上，CFR都會前瞻性地創(chuàng)建一個由線條和節(jié)點(diǎn)組成的決策“游戲樹”，描述每個玩家的潛在未來動作。游戲樹代表每個玩家在每個未來決策點(diǎn)可以采取的所有可能的動作(線)。在進(jìn)行可能數(shù)十億次的游戲模擬時，CFR指出哪些動作增加或減少了獲勝的機(jī)會，并反復(fù)修改其策略以包括更多好的決策。最終，它計(jì)劃出一種最佳策略，在最壞的情況下，它會與任何對手聯(lián)系在一起。

CFR可以很好地用于撲克之類的游戲，并且可以通過公共行動(例如下注錢和棄牌)來進(jìn)行，但是當(dāng)行動為秘密時，CFR會遇到困難。研究人員的CFR結(jié)合了公共行為和私人行為的后果，以確定參與者是反抗還是間諜。

該機(jī)器人是通過對抗自己作為抵抗力和間諜來進(jìn)行訓(xùn)練的。在玩在線游戲時，它使用其游戲樹來估計(jì)每個玩家將要做什么。游戲樹代表一種策略，該策略使每個玩家有最高的獲勝機(jī)會作為指定角色。樹的節(jié)點(diǎn)包含“反事實(shí)值”，基本上是對玩家根據(jù)給定策略執(zhí)行后所獲得的回報(bào)的估計(jì)。

在執(zhí)行每個任務(wù)時，機(jī)器人會查看每個人與游戲樹相比的玩法。如果在整個游戲中，玩家做出的決定與機(jī)器人的期望不一致，那么該玩家可能會扮演另一個角色。最終，機(jī)器人為每個玩家的角色分配了很高的概率。這些概率用于更新機(jī)器人的策略，以增加其獲勝的機(jī)會。

人工智能機(jī)器人可以在多人隱藏角色游戲中完勝人類

同時，它使用相同的技術(shù)來估計(jì)第三人稱觀察者如何解釋自己的行為。這有助于估計(jì)其他參與者的反應(yīng)，從而做出更明智的決策。“如果執(zhí)行的兩人任務(wù)失敗，那么其他玩家就會知道一個玩家是間諜。該機(jī)器人很可能不會在未來的任務(wù)中提議同一個團(tuán)隊(duì)，因?yàn)樗榔渌婕艺J(rèn)為這很不好。

語言：下一個領(lǐng)域

有趣的是，該機(jī)器人無需與其他玩家進(jìn)行交流，這通常是游戲的關(guān)鍵組成部分。“ Avalon”使玩家可以在游戲過程中在文本模塊上聊天。Kleiman-Weiner說：“但是事實(shí)證明，我們的機(jī)器人能夠與其他人一起很好地工作，同時僅觀察玩家的行為。” “這很有趣，因?yàn)槿藗兛赡苷J(rèn)為這樣的游戲需要復(fù)雜的溝通策略。”

艾伯塔大學(xué)教授邁克爾·鮑林(Michael Bowling)說：“我很高興看到這篇論文發(fā)表。”他的研究部分側(cè)重于訓(xùn)練計(jì)算機(jī)玩游戲。“看到DeepStack中的想法在撲克之外獲得更廣泛的應(yīng)用，真是令人興奮。[DeepStack]在國際象棋和信息不完善的情況下對AI至關(guān)重要。但是我仍然不希望看到它如此迅速地?cái)U(kuò)展到像Avalon這樣的隱藏角色游戲中。能夠駕馭社會扣人心弦的場景，這真是人類的精髓，這是非常重要的一步。還有很多工作要做，特別是當(dāng)社交互動更加開放時，但是我們不斷看到，許多具有自學(xué)式學(xué)習(xí)的基本AI算法可以走很長一段路。”

接下來，研究人員可以使機(jī)器人在游戲過程中使用簡單的文字進(jìn)行交流，例如說出玩家的好壞。這將涉及將文本分配給玩家抵抗或間諜的相關(guān)概率，機(jī)器人已使用該概率做出決策。除此之外，未來的機(jī)器人可能會配備更復(fù)雜的通訊功能，使其能夠玩重語言的社交演繹游戲，例如流行的游戲“狼人”，其中涉及數(shù)分鐘的爭論并說服其他玩家了解誰在好的和壞的團(tuán)隊(duì)。

Serrino說：“語言無疑是下一個領(lǐng)域。” “但是在那些溝通至關(guān)重要的游戲中，攻擊存在許多挑戰(zhàn)。”

鄭重聲明：本文版權(quán)歸原作者所有，轉(zhuǎn)載文章僅為傳播更多信息之目的，如作者信息標(biāo)記有誤，請第一時間聯(lián)系我們修改或刪除，多謝。

欧美牲交a欧美牲交-免费看撕开奶罩揉吮奶头视频-激情 人妻 制服 丝袜-丰满少妇被粗大猛烈进人高清

相關(guān)推薦

欧美牲交a欧美牲交-免费看撕开奶罩揉吮奶头视频-激情人妻制服丝袜-丰满少妇被粗大猛烈进人高清