本文提出了一種名為"橋接策略學習"的方法,使自主機器人能夠有效地適應部署環境中的新奇情況。
首先,作者假設機器人擁有一組技能和一個規劃模型,可以用來解決用戶提供的任務。但在部署過程中,機器人可能會遇到規劃模型無法處理的新奇情況,導致無法按計劃執行。
為此,作者提出構建一個強化學習問題,讓機器人學習一個"橋接策略",在遇到新奇情況時,可以暫時切換到該策略,解決問題,然後再切換回規劃器執行計劃。這個橋接策略通過一個特殊的"CallPlanner"動作,可以將控制權交回給規劃器,利用規劃器的知識來避免長期探索帶來的困難。
作者在三個不同複雜度的模擬環境中進行了實驗,結果表明,該方法比基線方法更有效地適應新奇情況,並且學習到的橋接策略可以與規劃器配合,解決更複雜的任務。
toiselle kielelle
lähdeaineistosta
arxiv.org
Syvällisempiä Kysymyksiä