核心概念
本文提出了一種名為 LSTOC 的強化學習框架,用於學習具有時間順序約束的隱藏子目標,並通過構建子目標樹來提高學習效率和泛化能力。
標題: 在強化學習中學習具有時間順序約束的隱藏子目標
作者: Duo Xu, Faramarz Fekri
單位: 喬治亞理工學院 電腦工程學院
摘要:
在現實世界的應用中,完成任務的成功通常取決於多個關鍵步驟,這些步驟在時間上相距遙遠,並且必須按照固定的時間順序完成。例如,烹飪食譜中列出的關鍵步驟應該按照正確的時間順序逐一完成。這些關鍵步驟可以被視為任務的子目標,它們的時間順序被描述為時間順序約束。然而,在許多現實問題中,子目標或關鍵狀態通常隱藏在狀態空間中,它們的時間順序約束也是未知的,這使得以前的強化學習算法難以解決這類任務。為了解決這個問題,在這項工作中,我們提出了一種新的強化學習算法,用於學習具有時間順序約束的隱藏子目標(LSTOC)。我們提出了一種新的對比學習目標,它可以基於首次佔用表示和時間幾何採樣,同時有效地學習隱藏子目標(關鍵狀態)及其時間順序。此外,我們提出了一種樣本高效的學習策略,通過構建一個子目標樹來表示已發現的子目標及其時間順序關係,從而按照時間順序約束逐個發現子目標。具體來說,這棵樹可以用於提高軌跡收集的樣本效率,加快任務解決速度並泛化到未見過的任務。LSTOC 框架在幾個具有基於圖像的觀察結果的環境中進行了評估,顯示出其相對於基準方法的顯著改進。
主要內容:
問題背景: 現實世界中的許多任務都涉及多個需要按特定時間順序完成的子目標,但這些子目標和它們的時間順序約束通常是隱藏的。
現有方法的不足: 傳統的強化學習算法難以有效地解決具有隱藏子目標和時間順序約束的任務。
LSTOC 框架: 本文提出了一種新的強化學習框架 LSTOC,用於學習具有時間順序約束的隱藏子目標。
子目標學習: LSTOC 採用對比學習方法,通過迭代構建子目標樹來逐個發現隱藏子目標及其時間順序關係。
對比學習: 提出了一種新的對比學習目標,可以同時檢測關鍵狀態和學習它們的時間距離。
標記: 通過求解整數線性規劃(ILP)問題,將發現的關鍵狀態映射到子目標語義符號,從而為每個學習到的子目標賦予語義。
實驗結果: 在多個環境中的實驗表明,LSTOC 在學習子目標和解決給定任務的效率方面優於基準方法,並且具有一定的泛化能力。
局限性: LSTOC 在某些情況下無法區分環境瓶頸狀態和隱藏子目標,也無法區分給定 FSM 中對稱分支的差異。此外,在某些難以探索的環境中,軌跡收集可能存在問題。
總結:
LSTOC 框架為學習具有時間順序約束的隱藏子目標提供了一種新的解決方案,並通過實驗驗證了其有效性和效率。
統計資料
在 Letter 環境中,收集了 10^6 個轉移樣本。
在 Office 環境中,收集了 2 × 10^6 個轉移樣本。
在 Crafter 環境中,收集了 2.5 × 10^6 個轉移樣本。
Letter 環境中用於可視化的軌跡數量為 5000 條。
Office 環境中用於可視化的軌跡數量為 8000 條。
探索策略中使用的 ϵ-greedy 算法的 ϵ 值為 0.5。