拾取器機器人 - 即拾取和放置物品的電動鉗子 - 可能具有對它們有利的可重復(fù)性,但復(fù)雜的姿勢和不熟悉的物體對它們中的大多數(shù)構(gòu)成了挑戰(zhàn)。難怪為什么:他們不僅需要定位物體并理解如何抓住它們,這需要大量的訓(xùn)練數(shù)據(jù),但是他們必須將它們放下,以免它們受到損害或擾亂周圍環(huán)境。
不過,請留給麻省理工學(xué)院計算機科學(xué)與人工智能實驗室(CSAIL)的人們,開創(chuàng)一種克服這些障礙的方法。在一篇新發(fā)表的研究論文(“ K-PAM的類別級機器人操作:關(guān)鍵點負(fù)擔(dān)操作 ”)中,他們描述了一個系統(tǒng) - Keypoint Affordance Manipulation,或簡稱為“kPAM” - 檢測一組目標(biāo)坐標(biāo),稱為關(guān)鍵點,啟用機器人硬件,在其上部署處理一系列精巧的對象。
麻省理工學(xué)院教授兼資深作家拉斯泰德拉克在一份聲明中說:“每當(dāng)你在YouTube上看到一個機器人視頻時,你應(yīng)該仔細(xì)觀察機器人沒有 做什么。” “機器人幾乎可以選擇任何東西,但如果它是他們以前從未見過的物體,他們實際上無法以任何有意義的方式放下它。”
大多數(shù)拾取和放置感知和抓取算法估計位置,方向和幾何形狀而不是點,這很難轉(zhuǎn)化為涉及形狀奇特的物體的任務(wù)。相比之下,kPAM的三維關(guān)鍵點管道可以“自然地”適應(yīng)對象類型之間的變化。Tedrake - 以及博士生Lucas Manuelli,Pete Florence和Wei Gao--說相對統(tǒng)一的目標(biāo)只需要三個坐標(biāo),比如咖啡杯(重要的是,一個在底部中心和頂部中心),并且拖鞋,靴子和高跟鞋等物品足夠六件。
“只需了解一下這個對象 - 一些關(guān)鍵點的位置 - 足以實現(xiàn)各種有用的操作任務(wù),”Tedrake說。
研究人員利用“最先進的”積分AI模型進行關(guān)鍵點檢測,該模型將單個RGB和深度圖像作為輸入,并輸出每個坐標(biāo)的概率熱圖和深度預(yù)測圖。(在后續(xù)步驟中恢復(fù)2D圖像坐標(biāo),深度值和最終3D關(guān)鍵點。)它們通過將關(guān)鍵點網(wǎng)格投影到圖像空間中來收集來自包含感興趣對象的場景的訓(xùn)練數(shù)據(jù),給定來自3D重建算法的估計相機姿勢。
在涉及安裝有Schunk WSG 50夾持系統(tǒng)(和深度感應(yīng)Primesense傳感器)的Kuka IIWA LBR機器人的實驗中,經(jīng)過全面訓(xùn)練的系統(tǒng)成功引導(dǎo)機器人手臂將鞋子放在鞋架上,將馬克杯直立放在架子上,并用手柄將杯子掛在架子上。
機器人在測試20件鞋子方面沒有任何問題; 在100次試驗中,只有兩次未能將鞋子放在架子上。當(dāng)抓手抓住鞋跟后,產(chǎn)生錯誤,導(dǎo)致其從原始位置移開。
在杯架任務(wù)中,包括40個不同形狀,大小和視覺外觀的杯子的測試裝置,機器人設(shè)法在垂直躺著時抓住所有杯子,但由于夾子的行程有限而僅水平躺著。令人印象深刻的是,除了兩次試驗之外(當(dāng)杯子倒置時),它將杯子放在距目標(biāo)位置5厘米的架子上。
杯子手柄測試有一個較小的設(shè)置--30個杯子 - 和五個非常小的杯子,手柄的高度和寬度不到兩厘米。夾具在100%的時間內(nèi)將較大的杯子掛在架子上,但是對于較小的杯子,它只能達(dá)到50%的成功率。研究人員將失敗案例歸結(jié)為不準(zhǔn)確的關(guān)鍵點檢測。
其他領(lǐng)域也有改進的空間。Tedrake和共同作者指出,人類必須注釋他們的系統(tǒng)所需的訓(xùn)練數(shù)據(jù),他們打算通過用合成數(shù)據(jù)補充現(xiàn)實樣本來逐步淘汰未來的工作。并且他們承認(rèn),即使對象類別沒有改變,關(guān)鍵點也必須重新標(biāo)記并且模型會重新訓(xùn)練。
盡管如此,他們認(rèn)為它比大多數(shù)現(xiàn)有方法提供更大的靈活性,并且他們相信有一天,它可能有助于機器人承擔(dān)諸如卸下洗碗機,擦拭廚房柜臺以及在工廠和其他工業(yè)環(huán)境中執(zhí)行拾取和放置工作等任務(wù)。 。