核心概念
本文提出了一種名為 DA-VIL 的新型機器人控制框架,該框架結合了強化學習和可變阻抗控制,使雙臂機械手能夠有效地操控各種形狀和重量的物體。
摘要
DA-VIL:基於強化學習和可變阻抗控制的自適應雙臂機械手操作
研究目標:
本研究旨在解決協調雙臂機械手操作的挑戰,特別是在處理不同質量和幾何形狀的物體時,需要精確的控制策略來應對雙臂和物體之間的動態交互。
方法:
為了解決傳統阻抗控制方法的局限性,本研究提出了一種名為 DA-VIL 的新型框架,該框架整合了強化學習 (RL) 和基於優化的可變阻抗控制 (VIC)。
-
策略網路: 採用近端策略優化 (PPO) 演算法訓練策略網路,預測機械臂的剛度參數 (K)。觀察空間包括末端執行器姿態變化、物體姿態、關節位置、末端執行器扳手力、先前動作和時間與質量的正弦嵌入。獎勵函數旨在最小化末端執行器和物體的姿態誤差,同時鼓勵平滑的剛度變化。
-
基於優化的控制器: 策略網路預測的剛度值 (K) 被用於計算關節加速度 (¨q),然後用於計算扭矩 (τ)。採用二次規劃 (QP) 求解器來確定關節加速度,同時考慮了阻抗任務和姿態任務。阻抗任務旨在最小化跟踪誤差,同時考慮交互力,而姿態任務則確保機械臂的關節配置保持在與物體接觸時建立的配置附近。
主要發現:
- DA-VIL 在所有測試物體和質量上的軌跡跟踪誤差方面始終優於所有基準方法,包括基於優化的阻抗控制 (OIC)、阻抗控制 (IC) 和基於 RL 的阻抗控制 (RL+IC)。
- DA-VIL 能夠適應不同的物體質量,並隨著物體質量的增加而調整關節扭矩。
- 消融研究表明,獎勵函數中的指數移動平均 (EMA) 分量對於穩定動作預測和確保平滑的剛度變化至關重要。
主要結論:
- DA-VIL 框架通過結合 RL 和基於優化的 VIC,為解決協調雙臂機械手操作中的挑戰提供了一種有前景的解決方案。
- 該系統對不同物體特性(如質量和形狀)的適應性使其非常適合需要動態任務處理的實際應用。
局限性和未來研究方向:
- 未來的工作可以涉及整合新的複雜任務,例如組裝或協作操作。
- 可以探索基於碰撞避免的軌跡生成,以應對具有障礙物的環境。
- 為了應對感測器噪聲和物理動力學等挑戰,可以在真實硬體上測試該框架。
統計資料
本文使用了六種不同形狀和尺寸的物體進行實驗:椅子、凳子、湯鍋、筆記型電腦、顯示器和板條箱。
每個物體的質量在 0.5 公斤、1 公斤、2.5 公斤和 5 公斤之間變化,以引入學習過程中的可變性。
針對每個物體質量,在工作空間中均勻採樣 100 個目標位置,以評估模型性能。
跟踪誤差被定義為所有軌跡和物體質量上的物體平均跟踪誤差。
引述
“傳統的控制方法,如阻抗控制,通常難以進行固定參數調整,這使得它們不足以完成涉及不同物體特性的任務。”
“為了克服這些限制,我們提出了一種集成方法,將可變阻抗控制 (VIC) 與強化學習 (RL) 相結合。”
“通過將 VIC 與 RL 相結合,機器人系統可以通過與環境交互來學習和優化其控制策略。”