Conceitos Básicos
AquaBot系統透過行為複製學習人類操作員的技能,並透過自我學習持續優化其策略,最終在水下機械手臂操作任務中超越人類操作員的表現。
本研究旨在開發一個名為 AquaBot 的系統,該系統能夠學習端到端視覺運動策略,以實現完全自主的水下機械手臂操作,並透過自我學習超越人類遙控操作的效能。
硬體/軟體系統:
以 QYSEA FIFISH V-EVO 水下無人機為基礎,配備六個推進器、一個平行夾爪、一個低延遲防水串流相機和兩個外部相機。
使用軟體 SDK 透過控制盒發送控制訊號並接收本體感覺數據。
外部相機提供機器人定位,內部 IMU 感測器和指南針提供完整的 6 自由度機器人姿態。
行為複製學習機械手臂操作策略:
使用 Xbox 控制器實施遙控操作系統,以收集人類操作不同任務的示範數據。
使用卷積神經網路 (CNN) 作為視覺編碼器,從圖像中提取特徵向量。
使用多層感知器 (MLP) 作為策略網路,根據視覺特徵預測機械手臂動作。
透過行為複製,使用均方誤差損失函數,以人類示範數據訓練視覺運動策略。
自我學習加速策略優化:
利用水下環境的安全性,讓機器人進行自我學習,並透過調整每個控制維度的縮放參數來加速策略,目標是在最短時間內完成操作任務。
採用基於代理模型的優化演算法,學習一個將速度參數映射到獎勵的模型。
使用 ε-greedy 探索策略,在探索階段隨機採樣速度參數,在利用階段使用代理模型優化參數。
透過試錯法,自我學習演算法尋找最佳的速度參數組合,以提高任務執行效率。