本文提出了一種名為「穩健決策導向模型強化學習」(RDF-MBRL)的新方法,旨在解決模型強化學習在面對不同獎勵函數時表現不佳的問題。RDF-MBRL 通過利用決策導向模型的非唯一性,學習一個在不同獎勵偏好下都能表現良好的簡單模型,從而在學習階段和部署階段都能保持高回報。
本文提出了一種名為均方雙冪變異誤差 (MSBVE) 的新演算法,用於解決在具有跳躍的連續時間設定下估計值函數的挑戰,特別是在狀態動態由具有跳躍分量的隨機微分方程 (SDE) 控制的情況下。
本文提出了一種名為「行動者-物理學家」(AP) 的新型強化學習方法,用於控制粒子在湍流中的游動,並證明其在控制粒子動力學方面優於標準強化學習方法。
本文提出了一種名為「觀察約束馬可夫決策過程」(OCMDP)的新方法,用於在觀察成本高昂的環境中,學習最佳的觀察和控制策略,並在模擬醫療診斷任務和真實醫療保健環境中驗證了其有效性。
在不確定的環境中,人類會根據感知不確定性動態調整獎賞學習率,並且在經濟決策過程中,除了預期價值外,視覺顯著性也會發揮作用。
本文提出了一種名為 OOPE 的新型演算法,用於解決具有未知轉移和對抗性獎勵的線性混合 MDP 問題,該演算法結合了基於佔用度量和基於策略方法的優點,實現了近似最優的動態遺憾值。
本文提出了一種名為 TADPoLe(基於文字感知擴散模型的策略學習)的新方法,該方法利用預先訓練好的文字轉圖像或文字轉影片擴散模型,為強化學習策略提供密集的文字條件獎勵信號,從而實現零樣本學習,並鼓勵代理學習更自然的行為。
後見經驗回放 (HER) 可以通過重新採樣目標來加速近端策略優化 (PPO) 等策略學習算法,即使 HER 違反了策略學習算法的假設。
在代理狀態不滿足馬可夫性質的部分可觀察馬可夫決策過程 (POMDP) 中,非固定策略,特別是週期性策略,可以優於固定策略。
本文提出了一種名為 ZoRL 的新型強化學習算法,用於解決具有連續狀態-動作空間的平均獎勵馬可夫決策過程。ZoRL 採用自適應離散化技術和樂觀原則,實現了對狀態-動作空間的「縮放」能力,並在理論上證明了其遺憾值與縮放維度 dz 的關係。