核心概念
本文提出了一種名為動態自適應儲備池計算 (DARC) 的新型機器人技能學習方法,該方法結合了示範學習 (LfD) 和強化學習 (RL) 的優勢,通過動態調節儲備池的上下文輸入,實現對未見過任務的泛化和高效學習。
摘要
本文介紹了一種新穎的機器人技能學習框架——動態自適應儲備池計算模型 (DARC),該模型結合了儲備池計算 (RC) 的效率和強化學習 (RL) 的適應性。DARC 模型首先利用基於上下文的回聲狀態網絡 (CESN) 進行示範學習 (LfD),學習一組基本動作技能。然後,通過 RL 模組學習一個策略,動態生成上下文輸入以調節儲備池動態,從而使機器人能夠適應未在初始示範數據集中出現的新任務和目標,而無需額外的示範或修改儲備池。
DARC 模型的優勢
靈活性: 通過上下文輸入調節儲備池活動,DARC 模型可以利用第一階段的學習成果生成新的行為,而無需額外收集數據。
計算效率: (1) 由於採用儲備池學習,第一階段的訓練速度很快;(2) 第二階段的 RL 學習在低維動作空間中進行。
可擴展性: 將任務複雜度與上下文維度解耦,允許以有限的 RL 計算成本增加泛化到更複雜的任務。
實驗結果
在模擬的 2 自由度機器人手臂的實驗中,DARC 模型在以下任務中表現出色:
到達任務: DARC 模型成功到達了訓練數據集以外的目標點,優於僅使用 LfD 的 CESN 模型和僅使用 RL 的 PPO 模型。
避障到達任務: DARC 模型成功避開障礙物並到達目標點,而 CESN 模型無法完成此任務,PPO 模型的軌跡效率較低。
圓形軌跡跟踪任務: DARC 模型成功學習了如何跟踪圓形軌跡,展現了其遷移學習的能力。
結論
DARC 模型提供了一種靈活、高效且可擴展的機器人技能學習方法,通過結合 LfD 和 RL 的優勢,實現了對未見過任務的泛化和高效學習。未來的研究方向包括整合額外的控制器以提高性能、優化獎勵函數以及在真實機器人系統上進行驗證。
統計
DARC模型在包含障碍物的到达任务中,成功率达到100% (256/256)。
在圆形轨迹跟踪任务中,DARC模型的径向距离误差远低于CESN模型,与基准PD控制器相当。
DARC模型在到达任务中,成功率达到59.375% (77/128),远高于CESN模型的1.5625% (2/128) 和PPO模型的11.71875% (15/128)。