本文提出了一個名為「Select Segments to Imitate」(S2I)的框架,旨在有效利用機器人操作任務中的混合品質示範數據。該框架包含三個主要部分:
示範分段:將原始示範數據劃分為語義一致的片段,以保留高品質片段並優化低品質片段。
片段選擇:利用對比學習訓練片段表示模型,並通過距離加權投票確定每個片段的品質。
軌跡優化:對低品質片段進行軌跡優化和動作重標記,以提高政策學習的效率。
通過上述步驟,S2I框架能夠有效利用混合品質示範數據,在只有3個專家示範的情況下,即可顯著提升各種下游機器人操作政策的性能。實驗結果表明,S2I在模擬環境和真實環境中均能有效處理混合品質示範數據,並提升政策學習效果。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies