專欄中心

EEPW首頁 > 專欄 > 基于視覺和慣性傳感器的移動機(jī)器人手遙操作系統(tǒng)

基于視覺和慣性傳感器的移動機(jī)器人手遙操作系統(tǒng)

發(fā)布人：計算機(jī)視覺工坊時間：2020-12-19 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

論文：A Mobile Robot Hand-Arm Teleoperation System by Vision and IMU

該研究提出了一種多模式移動遙操作系統(tǒng)，該系統(tǒng)由一個新穎的基于視覺的手勢回歸網(wǎng)絡(luò)（Transteleop）和一個基于IMU的手臂跟蹤方法組成。Transteleop通過低成本的深度相機(jī)觀察人的手，并通過圖像到圖像的轉(zhuǎn)換過程，不僅生成關(guān)節(jié)角度，而且還生成配對的機(jī)器人手姿勢的深度圖像。基于關(guān)鍵點(diǎn)的重建損失探索了人類和機(jī)器人手在外觀和解剖結(jié)構(gòu)上的相似之處，并豐富了重建圖像的局部特征。穿戴式攝像機(jī)支架可實現(xiàn)同時的手臂控制，并促進(jìn)整個遠(yuǎn)程操作系統(tǒng)的移動性。測試數(shù)據(jù)集上的網(wǎng)絡(luò)評估結(jié)果以及除簡單的取放操作之外的各種復(fù)雜操作任務(wù)，顯示了多模式遙操作系統(tǒng)的效率和穩(wěn)定性。

1.研究問題

擬人化機(jī)械手的遙操作以執(zhí)行靈巧操作仍是挑戰(zhàn)。無標(biāo)記的基于視覺的遙操作具有成本低，侵入性小的強(qiáng)大優(yōu)勢。

問題a：由于機(jī)器人手和人手占據(jù)兩個不同的領(lǐng)域，因此如何補(bǔ)償它們之間的運(yùn)動學(xué)差異在基于無標(biāo)記視覺的遙操作中起著至關(guān)重要的作用。

問題b：遠(yuǎn)程操作員的手應(yīng)停留在攝像機(jī)系統(tǒng)有限的視野范圍內(nèi)。這種限制阻礙了操作員完成需要廣闊工作區(qū)域的操縱任務(wù)。

2.解決方法

解決方法a：提出了一種稱為Transteleop的基于視覺的新型遙操作方法，該方法基于圖像到圖像的翻譯方法提取配對的人和機(jī)器人手之間的連貫姿勢特征。Transteleop將人手的深度圖像作為輸入，然后估計機(jī)器人手的關(guān)節(jié)角度，并生成機(jī)器人手的重建圖像。本著監(jiān)督學(xué)習(xí)的精神，為了增強(qiáng)從圖像翻譯結(jié)構(gòu)中提取的特征的豐富性，研究人員設(shè)計了一個基于關(guān)鍵點(diǎn)的重建損失，以專注于手部關(guān)鍵點(diǎn)周圍的局部重建質(zhì)量。

解決方法b：為了實現(xiàn)真正的移動式手臂遙控操作系統(tǒng)，研究人員開發(fā)了一種攝像機(jī)支架，將攝像機(jī)安裝在人的手臂上。

3.研究目標(biāo)

建立一個移動機(jī)器人手臂遠(yuǎn)程操作系統(tǒng)，其中遠(yuǎn)程操作員可以在無限的工作空間中進(jìn)行自然的手部動作以完成一系列操作任務(wù)。為了建立這樣的系統(tǒng)，研究人員制定了一種新穎的基于視覺的方法來對擬人化的手進(jìn)行遙控操作，并利用基于IMU的設(shè)備來同時控制手臂。假設(shè)IH是人類的圖像，展示了通過深度相機(jī)觀察到的操作任務(wù)的手部姿勢。視覺部分旨在訓(xùn)練輸入IH并預(yù)測機(jī)器人關(guān)節(jié)角度Jhand的神經(jīng)模型，而IMU部分則打算將人手臂的絕對運(yùn)動映射到機(jī)器人手臂。

4.具體研究方法

4.1 Transteleop的提出和使用

根據(jù)機(jī)器人和人的共享姿態(tài)特征Zpose可以獲取Jhand(機(jī)器人關(guān)節(jié)角度)。文章采用了一種生成結(jié)構(gòu)，該結(jié)構(gòu)從圖像IH映射到圖像IR，并從該結(jié)構(gòu)的瓶頸層檢索姿態(tài)作為Zpose。網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示：

編碼器-****模塊：編碼器從各種角度拍攝人手IH的深度圖像，并發(fā)現(xiàn)人手和機(jī)器人手之間的潛在特征Zpose。研究人員使用六個卷積層，其中包含四個下采樣層和兩個具有相同輸出尺寸的殘差塊。因此，給定大小為9696的輸入圖像，編碼器將計算抽象66512維特征表示。考慮到數(shù)據(jù)集中的IH和IR中的像素區(qū)域不匹配，文章中使用完全連接的層而不是卷積層連接編碼器和****。

****旨在根據(jù)潛在姿勢特征Zpose從固定視點(diǎn)重建機(jī)器人手的深度圖像。一層全連接層將要素從Zpose連接到機(jī)器人要素向量ZR。緊跟著的是具有學(xué)習(xí)濾波器的四個上卷積層和一個用于圖像生成的卷積層。與其他圖像翻譯不同的是本文更加關(guān)注局部特征（例如指尖的位置）的準(zhǔn)確性，而不是全局特征（例如圖像樣式）的準(zhǔn)確性。研究人員設(shè)計了一個基于關(guān)鍵點(diǎn)的重建損失，以捕獲手的整體結(jié)構(gòu)，并專注于手的15個關(guān)鍵點(diǎn)周圍的像素。每個像素誤差的比例因子取決于該像素與所有關(guān)鍵點(diǎn)的距離，并認(rèn)為每個關(guān)鍵點(diǎn)的八個相鄰像素與這些關(guān)鍵點(diǎn)本身一樣重要。

4.2手臂支架設(shè)計

手臂的移動比較大會導(dǎo)致遙控操作員的手很容易從攝像機(jī)的視野中消失，研究中通過便宜的3D打印攝像機(jī)支架解決了這個問題，該攝像機(jī)支架可以安裝在遠(yuǎn)程操作員的前臂上，因此，相機(jī)將隨手臂一起移動。

由于攝像機(jī)位置的不確定性，研究中使用慣性動作捕捉設(shè)備控制機(jī)器人的手臂，將可穿戴設(shè)備的全局坐標(biāo)系設(shè)置為與機(jī)器人基坐標(biāo)系平行。根據(jù)獲取的旋轉(zhuǎn)數(shù)據(jù)和機(jī)器人手臂的鏈接長度，計算出機(jī)器人的手腕姿勢。通過將該姿勢輸入到BioIK解算器中來計算機(jī)器人手臂的關(guān)節(jié)角度。此后，研究人員通過計算和縮放當(dāng)前幀和前一幀的期望關(guān)節(jié)角度之間的前饋關(guān)節(jié)差異以及期望關(guān)節(jié)角度之間的反饋關(guān)節(jié)差異來設(shè)置每個關(guān)節(jié)的角速度。

5.實驗分析

輸入的深度圖像是從原始深度圖像中提取出來的，大小調(diào)整為9696。為優(yōu)化網(wǎng)絡(luò)，研究中使用批訓(xùn)練隨機(jī)梯度下降法，并應(yīng)用Adam優(yōu)化器，其學(xué)習(xí)率0.002和動量參數(shù)設(shè)置為0.5和0.999，并在每個卷積層之后添加一個批處理歸一化（BN）層和一個修正線性單元（ReLU）。

1）網(wǎng)絡(luò)框架對比

為了評估Transtelop是否可以學(xué)習(xí)指示性的視覺表示，研究中將Transtelop與兩種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了比較：TeachNet和GANteleop。為了顯示來自機(jī)器人自身域的回歸結(jié)果，研究中訓(xùn)練了一個模型Robotonly，該模型刪除了Transteleop中的****模塊，僅提供了機(jī)器人手的圖像。為提供輸入圖像的空間變換功能，研究人員在Transteleop上增加了STN網(wǎng)絡(luò)。

研究中使用手姿勢估計中的標(biāo)準(zhǔn)指標(biāo)評估了測試數(shù)據(jù)集上Transteleop和四個基線的回歸性能：a.最大關(guān)節(jié)角度誤差低于閾值的幀比例；b.最大關(guān)節(jié)距離誤差低于閾值的幀比例；c.在所有角度上的平均角度誤差。結(jié)果如下圖所示：

實驗結(jié)果分析：

由于具有匹配的域和相同的視角，因此，Robotonly模型在所有評估指標(biāo)上均明顯優(yōu)于其他基準(zhǔn)。Transtelop和GANteleop均在最大關(guān)節(jié)角度以下顯示了平均10.63％的精度的提升，該精度高于TeachNet。研究人員推斷，這兩種圖像到圖像的轉(zhuǎn)換方法都比TeachNet抓住了機(jī)器人更多的姿勢特征。此外，GANteleop之所以比Transteleop差，是因為GANteleop中的判別網(wǎng)絡(luò)專注于追求逼真的圖像，并削弱了對關(guān)節(jié)的監(jiān)督。比較Transtelop和不使用STN的Transtelop，即使使用了STN網(wǎng)絡(luò)，也沒有明顯的改進(jìn)。這表明附加的空間變換僅為該任務(wù)帶來了一點(diǎn)外觀標(biāo)準(zhǔn)化效果，但并未顯著促進(jìn)手部姿勢變換為規(guī)范姿勢。如上圖(c)所示，所有方法聯(lián)合回歸的絕對平均誤差均低于0.05 rad，最高誤差發(fā)生在拇指關(guān)節(jié)5上，因為人的拇指與陰影拇指之間存在很大差異。

2）實驗操作設(shè)置：

系統(tǒng)地評估了四種類型的物理任務(wù)，對多模型遠(yuǎn)程操作方法進(jìn)行了分析，涉及精度和功率控制的分析，有力和無力操縱以及雙臂交接任務(wù)的分析。

手臂的速度控制頻率為20Hz，人手臂的起始姿勢始終與機(jī)器人手臂的起始姿勢一致。同時，機(jī)器人的手臂在每個任務(wù)上總是以幾乎相似的姿勢開始和結(jié)束，手部軌跡控制的頻率設(shè)置為10Hz。一名女性和兩名男性測試人員參加了以下機(jī)器人實驗，并且其中每一項任務(wù)都是隨機(jī)執(zhí)行的。

1)取放。研究人員準(zhǔn)備了兩個測試方案：挑選一個薯條罐并將其放在同一張桌子上的紅色碗中；在桌子上選擇一個立方體，并將其放在方塊的頂部。第一種情況需要機(jī)械手的動力掌握技巧，第二種情況需要機(jī)械手的精確掌握技巧，并為遠(yuǎn)程操作員提供足夠的工作空間。

2)插入杯子。三個同心杯應(yīng)相互插入。此任務(wù)檢查精確掌握和釋放的能力。

3)推動物體。研究人員設(shè)置方塊的隨機(jī)初始姿勢，然后將方塊推入指定的位置。此任務(wù)包含推動，滑動和精確抓握的挑戰(zhàn)。

4)雙臂交接。左臂將一卷紙交給右手。操作員還利用慣性可穿戴設(shè)備控制PR2的左臂和左夾具。此任務(wù)測試整個遠(yuǎn)程操作系統(tǒng)的協(xié)調(diào)能力。由于系統(tǒng)的可移動性，人們可以面對面坐著而不是與機(jī)器人平行，從而獲得清晰的視野。

實驗練習(xí)：操作員在實際測試之前對每個任務(wù)進(jìn)行了五次非連續(xù)嘗試的預(yù)熱訓(xùn)練階段。對于諸如拾取和放置之類的簡單任務(wù)，經(jīng)過三輪試驗，操作員可以很好地完成任務(wù)。但是對于移交任務(wù)，遙控操作員進(jìn)行了更多嘗試，以適應(yīng)手臂的相反操作方向。每個任務(wù)由一名演示者執(zhí)行了五次。下表為實驗結(jié)果：

上表顯示了遠(yuǎn)程操作員完成任務(wù)所花費(fèi)的平均時間以及成功率。完成時間是在機(jī)器人開始移動直到返回初始姿勢時計算得出的。兩項拾取和放置任務(wù)的成功率高且完成時間短，并且杯子插入任務(wù)表明系統(tǒng)具有精確性和力量把握能力。與拾取和放置任務(wù)相比，方塊比碗小得多，因此機(jī)器人需要更長的時間才能找到放置立方體的寶貴位置。在推入任務(wù)期間，機(jī)器人可以使用多個手指將方塊快速推入目標(biāo)位置。然而，為了使推入誤差小于5mm，操作者花費(fèi)了很長時間來處理磚的方向。移交任務(wù)的成功率較低，主要是因為對左夾具的控制不精確，從而導(dǎo)致機(jī)器人意外丟失了物體。研究人員認(rèn)為：基于視覺的方法比基于IMU的方法更適合于多指控制。

6.總結(jié)和未來工作

本文結(jié)合了基于視覺的聯(lián)合估計方法，Transteleop和基于IMU的手臂遙操作方法，提出了一種手臂遠(yuǎn)程傳送系統(tǒng)。

研究不足和研究計劃：首先，攝像機(jī)支架給操作員帶來了額外的負(fù)擔(dān)，這在長期遙控操作過程中不舒服。其次，研究中缺乏手勢控制，因此一些高精度的任務(wù)（例如開瓶和擰緊螺絲）對于當(dāng)前系統(tǒng)仍然是棘手的。因此，研究人員計劃收集一個手部運(yùn)動數(shù)據(jù)集，更多地集中在拇指、無名指和中指的微妙姿勢上。最后，研究人員希望可以通過滑動檢測和力估計以減輕用戶的控制負(fù)擔(dān)并避免機(jī)器人的意外碰撞。

備注：作者也是我們「3D視覺從入門到精通」特邀嘉賓：一個超干貨的3D視覺學(xué)習(xí)社區(qū)

本文僅做學(xué)術(shù)分享，如有侵權(quán)，請聯(lián)系刪文。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

關(guān)鍵詞：