我們提出了一個完全自主的真實世界強化學習框架,使移動操縱機器人能夠在最小人工干預的情況下學習各種任務。這是通過1)任務相關自主性,引導探索朝向物體交互並防止陷入目標狀態附近,2)利用基本任務知識的行為先驗來提高政策學習效率,以及3)結合人類可解釋的語義信息和低層次的細粒度觀測來制定通用獎勵來實現的。