本文提出了一個完全自主的真實世界強化學習框架,使移動操縱機器人能夠在最小人工干預的情況下學習各種任務。
首先,通過引導探索朝向物體交互並防止陷入目標狀態附近的"任務相關自主性"來確保收集有用的學習數據。
其次,通過利用基本任務知識的行為先驗來提高政策學習的效率。這些先驗可以是具有簡化模型的規劃器,或者是自動生成的運動。
最後,通過結合人類可解釋的語義信息(如物體檢測和分割)和低層次的細粒度觀測(如深度)來制定通用獎勵,以實現靈活的獎勵監督。
我們的實驗表明,這種方法使Spot機器人能夠在4個具有挑戰性的移動操縱任務上持續提高性能,平均成功率達到80%,比單獨使用先驗或強化學習提高3-4倍。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Russell Mend... às arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.20568.pdfPerguntas Mais Profundas