Основні поняття
本文提出了一種新的機器人技能習得概率模型,將技能解釋為潛在空間中的反饋控制器,並透過切換這些控制器來實現複雜任務的學習。
文獻資訊: Zhang, J., Kuli´c, D., & Burke, M. (2024). A Probabilistic Model for Skill Acquisition with Switching Latent Feedback Controllers. Journal of LaTeX Class Files, 14(8). [Preprint]. arXiv:2410.14191v1
研究目標: 本研究旨在開發一種新的機器人技能習得方法,解決現有基於相似性和變點檢測方法的局限性,例如對噪聲敏感、處理複雜多模態數據效率低下等問題。
方法:
將全連接神經網絡重新詮釋為潛在空間中的反饋控制律。
設計一個包含編碼器、技能切換器和潛在線性反饋控制器的概率圖模型。
使用變分推斷訓練模型,最大化演示序列的聯合概率。
主要發現:
與傳統混合密度網絡(MDN)相比,該模型在模擬(Franka Kitchen 和 FetchPush 任務)和實際機器人實驗(機器人書寫任務)中均表現出更高的任務成功率和對觀測噪聲的魯棒性。
該模型展現出良好的樣本效率,可以使用較少的訓練數據達到與基線模型相當甚至更好的性能。
通過切換潛在空間中的反饋控制器,該模型能夠學習更複雜的技能序列,並生成更平滑、穩定的機器人動作。
結論:
本研究提出了一種基於切換潛在反饋控制器的技能習得概率模型,有效提高了機器人技能學習的魯棒性、樣本效率和技能遷移能力。
意義:
該模型為機器人從演示中學習複雜操作任務提供了一種新的思路,並在現實世界應用中具有潛在的優勢。
局限性與未來研究方向:
技能數量的確定目前依賴於超參數設定,未來可以探索自動學習最少必要技能數量的方法。
技能之間的轉換由隨機抽樣決定,缺乏高層次的要求指導,未來可以研究如何生成更連貫的技能序列。
潛在空間的學習完全依賴於模型,未來可以引入潛在動力學過程,以確保潛在空間中更平滑的轉換。
Статистика
與基線 MDN 模型相比,該模型在 Franka Kitchen 任務中的平均成功率提高了 12%。
在存在噪聲的情況下,該模型在 Franka Kitchen 任務中的平均魯棒性 AUC 比 MDN 模型高出 8%。
在 FetchPush 任務中,當技能數量為 20 和 100 時,該模型的性能優於 MDN 模型。
在 FetchPush 任務中,該模型在訓練數據量為總數據的 25%、50%、75% 和 100% 時,均表現出與 MDN 和行為克隆(BC)模型相當或更優的性能。
在添加高達 5% 的噪聲時,該模型在 FetchPush 任務中沒有出現性能下降。
當添加 20% 的噪聲時,該模型在 FetchPush 任務中的成功率仍然保持在 58% 左右,而其他模型則在 45% 或更低。
消融研究表明,添加潛在狀態和切換 KL 散度可以分別將模型的魯棒性提高約 3%。