Centrala begrepp
我們提出了一個完全自主的真實世界強化學習框架,使移動操縱機器人能夠在最小人工干預的情況下學習各種任務。這是通過1)任務相關自主性,引導探索朝向物體交互並防止陷入目標狀態附近,2)利用基本任務知識的行為先驗來提高政策學習效率,以及3)結合人類可解釋的語義信息和低層次的細粒度觀測來制定通用獎勵來實現的。
Sammanfattning
本文提出了一個完全自主的真實世界強化學習框架,使移動操縱機器人能夠在最小人工干預的情況下學習各種任務。
首先,通過引導探索朝向物體交互並防止陷入目標狀態附近的"任務相關自主性"來確保收集有用的學習數據。
其次,通過利用基本任務知識的行為先驗來提高政策學習的效率。這些先驗可以是具有簡化模型的規劃器,或者是自動生成的運動。
最後,通過結合人類可解釋的語義信息(如物體檢測和分割)和低層次的細粒度觀測(如深度)來制定通用獎勵,以實現靈活的獎勵監督。
我們的實驗表明,這種方法使Spot機器人能夠在4個具有挑戰性的移動操縱任務上持續提高性能,平均成功率達到80%,比單獨使用先驗或強化學習提高3-4倍。
Statistik
移動椅子到角落桌子的目標位置需要最小-2的平均獎勵。
移動椅子到中間桌子的目標位置需要最小-1的平均獎勵。
長柄塵畚箕需要垂直平衡,以保持直立。
將紙袋掃到目標區域需要最小-4的平均獎勵。
Citat
"我們提出了一個完全自主的真實世界強化學習框架,使移動操縱機器人能夠在最小人工干預的情況下學習各種任務。"
"通過引導探索朝向物體交互並防止陷入目標狀態附近的'任務相關自主性'來確保收集有用的學習數據。"
"通過結合人類可解釋的語義信息和低層次的細粒度觀測來制定通用獎勵,以實現靈活的獎勵監督。"