使用Stuart Armstrong將人的喜好合成為實用功能

2020-01-25 11:28:24    來源:    作者:

在他的研究議程v0.9中:將人類的偏好綜合為效用函數(shù),斯圖爾特·阿姆斯特朗(Stuart Armstrong)開發(fā)了一種生成友好人工智能的方法。他的一致性建議可以廣義地理解為一種逆向強化學(xué)習(xí),其中推斷人類偏好的大部分任務(wù)留給了AI本身。我們有責(zé)任將正確的假設(shè),定義,偏好學(xué)習(xí)方法論和綜合過程構(gòu)建到AI系統(tǒng)中,以便能夠有意義地學(xué)習(xí)人類的偏好并將其合成為足夠的效用函數(shù)。為了使這一切正確,他的議程著眼于如何理解和識別人類偏愛,如何最終將這些習(xí)得的偏好綜合成“適當(dāng)?shù)?rdquo;效用函數(shù),開發(fā)和估算人類效用函數(shù)的實用性以及如何做到這一點。議程可以協(xié)助其他AI調(diào)整方法。

<img alt="使用Stuart Armstrong將人的喜好合成為實用功能" data-cke-saved-src="http://jinggongfamen.com.cn/uploadfile/2020/0125/20200125113627584.png" src="http://jinggongfamen.com.cn/uploadfile/2020/0125/20200125113627584.png" style="style=" max-width:="" 100%;"="">

該研究項目基本上有兩個核心部分。第一部分是識別人類的內(nèi)部模型,弄清楚它們是什么,我們?nèi)绾问褂盟鼈円约叭绾潍@得AI來實現(xiàn)正在發(fā)生的事情。因此,這些給了我們部分偏愛,這是我們建立一般偏愛的基礎(chǔ)。第二部分是將所有這些部分組合在一起,形成一種對任何給定個人的總體偏好,這種方式應(yīng)能很好地發(fā)揮作用,并盡可能尊重該人的不同偏好,元偏好等。該項目的第二部分是人們傾向于發(fā)表強烈意見的部分,因為他們可以看到它是如何工作的以及各個組成部分如何組合在一起,以及他們希望將其以不同的方式組合在一起等等。但實質(zhì)上

“因此,當(dāng)我說人類價值觀是矛盾的,易變的,可操縱的和未定義的時,我說的是前三個相對容易處理,而后一個則不然。大多數(shù)時候,人們沒有考慮他們或世界或所面臨的全部情況。沒有一種情況可以與另一種情況完全相似,因此您必須嘗試將其適應(yīng)不同的類別。因此,如果某個可疑的人在一個國家當(dāng)選并開始做非常專制的事情,這是否適合應(yīng)該抵制的專制政權(quán),或者適合于民主制的正常過程,在這種情況下,應(yīng)該忍受并通過民主來處理手段。通常會發(fā)生的事情是同時具有兩者的功能,因此它可能無法舒適地放入兩個盒子中,然后某人偽善或選擇其中一方,卻存在各種各樣的選擇,但之所以存在如此眾多的可能性,是因為這種情況并非完全正確之前面對過,所以人們實際上在這里沒有偏好。他們對這種情況沒有部分偏愛,因為這不是他們從未考慮過的……我實際上在研究議程中的某個時候爭論過,這是確保我們離目標(biāo)不遠(yuǎn)的論點。人類的基線正?;癁楫悋檎{(diào)的事物,在這些事物中我們的偏好未得到明確定義,因為在這些區(qū)域中,存在較大負(fù)面影響的可能性似乎大于存在較大正面影響的可能性……因此,當(dāng)我說不要太過分時,我并不是說不擁抱一個巨大的變革性未來。我的意思是說,不要擁抱我們的道德范疇開始瓦解的巨大變革的未來。”

使用Stuart Armstrong將人的喜好合成為實用功能

“尋找效用函數(shù)的原因之一是尋找不會隨時間變化的穩(wěn)定事物,并且有證據(jù)表明一致性要求會將任何形式的偏好函數(shù)推向效用函數(shù),如果沒有的話實用功能,您只會失去價值。因此,將其放入效用函數(shù)的渴望并不是對效用函數(shù)本身的欽佩,而是我們渴望獲得不會進(jìn)一步改變或不會進(jìn)一步朝著我們無法控制的方向漂移的東西的渴望。不知道另一個原因是,隨著我們開始更好地控制自己的偏好并具有更好的操縱自己的思想的能力,我們將朝著效用函數(shù)的方向發(fā)展,因為同樣的壓力基本上不會無意義地失去價值。”

使用Stuart Armstrong將人的喜好合成為實用功能

“反射均衡基本上是您完善自己的偏好,使其更加一致,將其應(yīng)用于自己,直到達(dá)到元偏好和偏好都平滑地相互融合的時刻。我正在做的是一個更加混亂的綜合過程,我這樣做是為了盡可能保留實際的人類偏好。僅僅通過擁有完全平坦的偏好或非常簡單的偏好就很容易達(dá)到反射性均衡,這些偏好往往在自身上非常反射性地處于平衡狀態(tài),而在我看來,朝著這個方向發(fā)展是對過度簡單性的追求。失去寶貴的偏好的巨大風(fēng)險。在我看來,失去有價值的偏好的風(fēng)險似乎比獲得簡單或優(yōu)雅帶來的風(fēng)險要高得多。毫無用處的是,人腦的and亂和偏好的混亂會導(dǎo)致一些簡單的反射平衡。實際上,您可以說這是反對自反均衡的一種論點,因為它意味著許多不同的起點,許多不同的頭腦,有著截然不同的偏好將導(dǎo)致相似的結(jié)果,這基本上意味著您將拋棄許多您的輸入數(shù)據(jù)。”

鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。