在電腦游戲中,賽車在沿著軌道行駛時(shí)要進(jìn)行優(yōu)化以提高速度,然后汽車將踏板推到金屬上,然后繼續(xù)轉(zhuǎn)彎。說明書中沒有任何內(nèi)容告訴汽車直行,所以它是即興的。
這個(gè)例子-在計(jì)算機(jī)游戲中很有趣,但在生活中卻沒有那么多-是促使斯坦福大學(xué)研究人員建立更好的方法來設(shè)定自治系統(tǒng)目標(biāo)的例子。
計(jì)算機(jī)科學(xué)和電氣工程學(xué)助理教授Dorsa Sadigh和她的實(shí)驗(yàn)室將兩種為機(jī)器人設(shè)定目標(biāo)的不同方法組合為一個(gè)過程,在模擬和實(shí)際實(shí)驗(yàn)中,它們的表現(xiàn)都比單獨(dú)一個(gè)部分要好。研究人員于6月24日在機(jī)器人技術(shù):科學(xué)與系統(tǒng)會(huì)議上介紹了這項(xiàng)工作。
“未來,我完全希望世界上會(huì)有更多的自治系統(tǒng),它們將需要了解什么是好是壞的概念,”計(jì)算機(jī)科學(xué)專業(yè)的研究生,Andy Palan的主要作者安迪·帕蘭(Andy Palan)說。紙。“至關(guān)重要的是,如果我們將來希望部署這些自治系統(tǒng),那么我們必須做到這一點(diǎn)。”
團(tuán)隊(duì)用于向機(jī)器人提供指令的新系統(tǒng)-稱為獎(jiǎng)勵(lì)功能-結(jié)合了演示(其中人類向機(jī)器人展示了該做什么)和用戶偏好調(diào)查,其中人們回答了有關(guān)他們希望機(jī)器人如何表現(xiàn)的問題。
薩迪格說:“示威是有益的,但可能會(huì)帶來干擾。另一方面,喜好最多只能提供一點(diǎn)信息,但更準(zhǔn)確。” “我們的目標(biāo)是充分利用兩全其美,并更智能地合并來自這兩個(gè)來源的數(shù)據(jù),以更好地了解人類的首選獎(jiǎng)勵(lì)功能。”