本研究は、深層強化学習におけるスパース報酬問題に取り組むため、状態のみの実証データを活用した新しい方策最適化アルゴリズムを提案している。
具体的には以下の通り:
実証データの状態分布情報と関連トラジェクトリの報酬信号を融合した滑らかなガイダンス報酬を設計する。これにより、長期的な信用割当を近似的に実現し、方策最適化を促進する。
トラジェクトリの重要度評価メカニズムと報酬計算技術を導入し、各状態-行動ペアの影響を測定する。
提案手法の性能改善の下限を理論的に分析し、性能改善の保証を導出する。
離散グリッドワールドと連続ロコモーション制御タスクにおいて、提案手法が他の手法に比べて優れた性能と収束速度を示すことを実験的に実証する。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Guojian Wang... alle arxiv.org 04-11-2024
https://arxiv.org/pdf/2401.00162.pdfDomande più approfondite