麻省理工學(xué)院和伍茲霍爾海洋學(xué)研究所(WHOI)的研究人員發(fā)明了一種自主的機(jī)器人系統(tǒng),可以有效地探測出在廣闊的,未經(jīng)勘探的水中最科學(xué)有趣的但很難找到的采樣點(diǎn)。
環(huán)境科學(xué)家通常對在環(huán)境中最有趣的位置或“最大值”處收集樣本感興趣。一個(gè)例子可能是泄漏化學(xué)品的來源,該化學(xué)品的濃度最高,并且大部分不受外部因素破壞。但是最大值可以是研究人員想要測量的任何可量化值,例如水深或暴露于空氣中的珊瑚礁部分。
部署尋求最大性能的機(jī)器人的工作受到效率和準(zhǔn)確性問題的困擾。通常,機(jī)器人會(huì)像割草機(jī)一樣來回移動(dòng)以覆蓋一個(gè)區(qū)域,這很耗時(shí),并且會(huì)收集許多有趣的樣本。一些機(jī)器人會(huì)感知并遵循高濃度的線索找到其泄漏源。但是它們可能會(huì)被誤導(dǎo)。例如,化學(xué)物質(zhì)可能被捕獲并堆積在遠(yuǎn)離源頭的縫隙中。機(jī)器人可能會(huì)將那些高濃度點(diǎn)識別為源頭,但距離還很近。
在國際智能機(jī)器人與系統(tǒng)國際會(huì)議(IROS)上發(fā)表的一篇論文中,研究人員描述了“ PLUMES”,該系統(tǒng)使自主移動(dòng)機(jī)器人能夠更快,更高效地實(shí)現(xiàn)最大零位歸零。PLUMES利用概率技術(shù)來預(yù)測哪些路徑可能導(dǎo)致最大值,同時(shí)導(dǎo)航障礙物,移動(dòng)電流和其他變量。在收集樣本時(shí),它會(huì)權(quán)衡所學(xué)的內(nèi)容,以確定是繼續(xù)沿著有希望的道路還是尋找未知的事物-這可能會(huì)保留更多有價(jià)值的樣本。
重要的是,PLUMES不會(huì)被困在那些棘手的高濃度點(diǎn)上而到達(dá)目的地。“這很重要,因?yàn)楹苋菀滓詾槟l(fā)現(xiàn)了黃金,但實(shí)際上您已經(jīng)找到了傻瓜的黃金,”第一作者,計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)和MIT-WHOI聯(lián)合計(jì)劃。
研究人員建造了由PLUMES驅(qū)動(dòng)的機(jī)器人船,該船成功地發(fā)現(xiàn)了巴巴多斯Bellairs邊緣礁中最裸露的珊瑚頭,這意味著它位于最淺的位置,這對于研究日曬如何影響珊瑚生物非常有用。在不同的水下環(huán)境中進(jìn)行的100次模擬試驗(yàn)中,虛擬PLUMES機(jī)器人在分配的時(shí)間范圍內(nèi)還連續(xù)收集了比傳統(tǒng)覆蓋方法多7到8倍的最大值樣本。
“ PLUMES進(jìn)行了最少的探索,以找到最大的探索量,然后迅速集中精力在那里收集有價(jià)值的樣本,”研究第一作者,CSAIL和MIT-WHOI聯(lián)合計(jì)劃博士生Genevieve Flaspohler說。
在論文中加入Preston和Flaspohler的是:WHOI應(yīng)用海洋物理與工程系的科學(xué)家Anna PM Michel和Yogesh Girdhar。尼古拉斯·羅伊(Nicholas Roy),加拿大航空航天學(xué)會(huì)(CSAIL)和航空航天系的教授。
導(dǎo)航漏洞利用-探索權(quán)衡
PLUMES的一個(gè)關(guān)鍵見解是使用從概率到推理的技術(shù)來解決眾所周知的復(fù)雜權(quán)衡問題,即權(quán)衡利用有關(guān)環(huán)境的知識與探索可能更有價(jià)值的未知區(qū)域之間的關(guān)系。
Flaspohler說:“最大程度地尋求最大的挑戰(zhàn)是,讓機(jī)器人平衡從已知高度集中的地點(diǎn)獲取的信息和探索對其不太了解的地方之間的平衡。” “如果機(jī)器人進(jìn)行的探索過多,則最多不會(huì)收集到足夠的有價(jià)值的樣本。如果探索得不夠充分,可能會(huì)完全錯(cuò)過最大值。”
置于新環(huán)境中的PLUMES機(jī)器人使用一種稱為高斯過程的概率統(tǒng)計(jì)模型對環(huán)境變量(例如化學(xué)濃度)進(jìn)行預(yù)測,并估計(jì)感應(yīng)不確定性。然后,PLUMES生成機(jī)器人可以采用的可能路徑的分布,并使用估計(jì)值和不確定性通過允許機(jī)器人進(jìn)行探索和利用的程度對每個(gè)路徑進(jìn)行排名。
首先,PLUMES將選擇隨機(jī)探索環(huán)境的路徑。但是,每個(gè)樣本都會(huì)提供有關(guān)周圍環(huán)境目標(biāo)值的新信息,例如化學(xué)物質(zhì)濃度最高或深度最淺的斑點(diǎn)。高斯過程模型利用該數(shù)據(jù)來縮小機(jī)器人可以從其給定位置遵循的路徑,以從具有更高價(jià)值的位置進(jìn)行采樣。PLUMES使用一種新穎的目標(biāo)函數(shù)(通常在機(jī)器學(xué)習(xí)中使用以最大化獎(jiǎng)勵(lì))來確定機(jī)器人是應(yīng)該利用過去的知識還是探索新的領(lǐng)域。
“光明化”的道路
在哪里收集下一個(gè)樣本的決定取決于系統(tǒng)從當(dāng)前位置“半透明”所有可能的未來操作的能力。為此,它利用了改進(jìn)的蒙特卡洛樹搜索(MCTS)版本,該版本是一種路徑規(guī)劃技術(shù),廣泛用于為掌握復(fù)雜游戲(例如Go和Chess)的人工智能系統(tǒng)提供動(dòng)力。
MCTS使用決策樹(連接的節(jié)點(diǎn)和線的圖)來模擬達(dá)成最終獲勝動(dòng)作所需的路徑或移動(dòng)順序。但是在游戲中,可能路徑的空間是有限的。在未知的環(huán)境中,隨著實(shí)時(shí)變化的動(dòng)態(tài)變化,空間實(shí)際上是無限的,從而使規(guī)劃變得極為困難。研究人員設(shè)計(jì)了“連續(xù)觀測MCTS”,它利用高斯過程和新穎的目標(biāo)函數(shù)來搜索可能的真實(shí)路徑的繁瑣空間。
此MCTS決策樹的根始于“信念”節(jié)點(diǎn),這是機(jī)器人可以采取的下一個(gè)直接步驟。該節(jié)點(diǎn)包含直到那時(shí)的機(jī)器人動(dòng)作和觀察的全部歷史記錄。然后,系統(tǒng)將樹從根部擴(kuò)展到新的行和節(jié)點(diǎn),并查看導(dǎo)致開發(fā)區(qū)和未開發(fā)區(qū)的未來操作的幾個(gè)步驟。
然后,系統(tǒng)根據(jù)從先前的觀察中學(xué)到的一些模式,模擬如果從每個(gè)新生成的節(jié)點(diǎn)中抽取一個(gè)樣本將會(huì)發(fā)生什么。取決于最終模擬節(jié)點(diǎn)的值,整個(gè)路徑會(huì)獲得獎(jiǎng)勵(lì)分?jǐn)?shù),值越高,意味著采取的措施就越多。來自所有路徑的獎(jiǎng)勵(lì)分?jǐn)?shù)將回滾到根節(jié)點(diǎn)。機(jī)器人選擇得分最高的路徑,邁出一步,并收集真實(shí)的樣本。然后,它使用實(shí)際數(shù)據(jù)更新其高斯過程模型并重復(fù)“鹵化”過程。
Flaspohler說:“只要系統(tǒng)繼續(xù)幻化為在世界看不見的地區(qū)可能會(huì)有更高的價(jià)值,它就必須繼續(xù)探索。” “當(dāng)它最終收斂于一個(gè)點(diǎn)時(shí),它估計(jì)是最大值,因?yàn)樗鼰o法沿著路徑產(chǎn)生更高的幻覺,然后便停止探索。”
現(xiàn)在,研究人員正在與WHOI的科學(xué)家合作,使用PLUMES驅(qū)動(dòng)的機(jī)器人在火山現(xiàn)場定位化學(xué)羽流,并研究北極融化的沿海河口中的甲烷釋放??茖W(xué)家對釋放到大氣中的化學(xué)氣體的來源很感興趣,但是這些測試場所可以跨越數(shù)百平方英里。
普雷斯頓說:“他們可以[使用PLUMES]花更少的時(shí)間去探索那個(gè)廣闊的區(qū)域,而真正專注于收集具有科學(xué)價(jià)值的樣本。”