在這一集中,Rohin將首先按順序進(jìn)行第一集中討論的方法。我們將從嵌入式代理開始,然后討論使AI系統(tǒng)完成我們想要的事情的領(lǐng)域,然后我們將討論雄心勃勃的價值學(xué)習(xí)。接下來,我們將著眼于可糾正性,特別是迭代式放大,辯論和因式認(rèn)知。
接下來,我們將討論對AI系統(tǒng)設(shè)置限制,這種性質(zhì)將是AI裝箱和影響度量。之后,我們將介紹魯棒性,包括驗證,對抗性機(jī)器學(xué)習(xí)和對抗性示例。
接下來,我們將討論可解釋性研究,最后是全面的AI服務(wù)。通過閱讀本系列的第一部分,您應(yīng)該在第二部分中有足夠的背景來了解這些材料。有點公告,我希望這個播客對聽眾特別有用和有趣。因此,我繼續(xù)進(jìn)行了三分鐘的簡短調(diào)查,您可以在FLI頁面上找到此播客的鏈接,或者在可能找到此播客的描述中找到該鏈接。與往常一樣,如果您覺得此播客有趣或有用,請確保在您喜歡的收聽平臺上喜歡,訂閱和關(guān)注我們。
對于尚未熟悉Rohin的人,他是UC Berkeley的計算機(jī)科學(xué)專業(yè)五年級博士學(xué)位學(xué)生,與Anca Dragan,Pieter Abbeel和Stuart Russell一起在人類兼容AI中心工作。他每周都會在Alignment Newsletter中收集并總結(jié)與AI對齊相關(guān)的最新進(jìn)展。這樣一來,我們將通過依次遍歷剛才列舉的方法開始。行。然后,讓我們繼續(xù),從第一個開始,我認(rèn)為這是嵌入式代理。
羅欣:是的,所以是嵌入式代理商。我有點想與嵌入式代理機(jī)構(gòu)順序有所不同,因為我不會做任何能做得那么出色的事情。但是基本思想是我們希望擁有這種智能理論,而對此的一個主要障礙是,我們目前所有的理論(最值得注意的是,強(qiáng)化學(xué)習(xí))都假設(shè)存在良好的清晰邊界在環(huán)境和代理之間。有點像代理正在玩視頻游戲,而視頻游戲就是環(huán)境。環(huán)境無法真正影響代理。代理具有此定義的輸入通道,可以執(zhí)行操作,這些操作將被發(fā)送到視頻游戲環(huán)境,視頻游戲環(huán)境會以此為基礎(chǔ)進(jìn)行操作并創(chuàng)建觀察結(jié)果,然后將該觀察結(jié)果發(fā)回給負(fù)責(zé)觀察的代理,那里有一個非常漂亮,簡潔的抽象。該代理可以比視頻游戲大,就像我比井字游戲大一樣。
實際上,我可以模擬井字游戲的整個游戲樹,并找出井字游戲的最佳策略。實際上就是這個很棒的XKCD確實向您展示了整個游戲樹,這很棒。
因此,以與視頻游戲設(shè)置相同的方式,該代理可以比視頻游戲環(huán)境更大,因為它可以具有完全準(zhǔn)確的環(huán)境模型并確切知道其動作將要做什么。因此,我們在視頻游戲環(huán)境中擁有所有這些不錯的假設(shè),但在現(xiàn)實世界中,這些假設(shè)是行不通的。如果您在地球上考慮我,我將無法獲得整個環(huán)境的精確模型,因為該環(huán)境將我包含在其中,而且我無法在我的內(nèi)部擁有一個完美的我的模型。那只是不可能發(fā)生的事情。更不用說擁有宇宙其余部分的完美模型了,但我們甚至將其擱置一旁。
有一個事實是我的動作空間到底是什么還不是很清楚。一旦有了我可以使用的筆記本電腦,筆記本電腦是否會在我的行動空間中開始說話?我們是否只談?wù)撐铱梢运闹\動的命令?但是,如果我突然上傳并且現(xiàn)在我再也沒有鏡頭了,那會發(fā)生什么?我的動作發(fā)生了什么,消失了嗎?因此,嵌入式代理商將這個問題大致分為四個子問題。我將它們與顏色相關(guān)聯(lián),因為這是Scott和Abram在其順序中所做的。紅色是決策理論。通常,決策理論是考慮所有可能的行為以模擬其后果,選擇一種會帶來最高預(yù)期效用的行為。當(dāng)您是嵌入式代理時,這不是您可以做的事情,因為環(huán)境可能取決于您執(zhí)行的策略。
最典型的例子是紐康問題,其中部分環(huán)境是強(qiáng)大的存在,歐米茄。Omega能夠完美地預(yù)測您的情況,因此它確切地知道您將要做什么,并且Omega 100%值得信賴,并且所有這些都簡化了假設(shè)。歐米茄為您提供以下游戲。他將在您面前放兩個透明的盒子。第一個框?qū)⑹冀K包含$ 1,000美元,第二個框?qū)偃f美元或什么都不包含,您可以看到此內(nèi)容,因為它們是透明的。您可以選擇帶一個盒子或兩個盒子,然后隨便拿里面的東西。
令人不安的是,如果歐米茄預(yù)測您只會帶上百萬美元的盒子,而不帶另一個盒子,他只會把一百萬美元放在盒子里。所以現(xiàn)在您看到兩個盒子,看到一個盒子有一百萬美元,另一個盒子有一千美元。在這種情況下,您是否應(yīng)該同時使用兩個盒子?還是只帶上一百萬美元的盒子?因此,按照我現(xiàn)在的設(shè)置方式,從邏輯上講,除了花費一百萬美元之外,您什么都做不到。因此,也許您會說好,我在邏輯上要求這樣做,所以這不是很有趣。但是,您可以將其放寬到一個問題,即Omega達(dá)到99.999%的預(yù)測正確率的可能性。從某種意義上說,現(xiàn)在您確實有代理權(quán)。您可以選擇兩個框,但這在邏輯上是不可能的,并且您知道,兩個框都在那里。您現(xiàn)在無法更改框中的金額?;镉?,您應(yīng)該只帶兩個盒子,因為這樣可以多給您$ 1,000。你為什么不這樣做呢?