本論文は、深層強化学習(DRL)エージェントの最適な性能を得るための課題に取り組んでいる。特に、疎報酬環境下での複雑なタスクにおいて、DRLエージェントの訓練が停滞してしまう問題に着目している。
提案手法RICEは以下の2つのステップから成る:
具体的には、RICEは状態マスク手法を用いて重要な状態を特定し、デフォルトの初期状態分布とこれらの重要状態を混合した初期状態分布を構築する。この混合初期状態分布を用いて、探索ベースの手法(PPO)によりエージェントを更新する。
理論的な分析により、提案手法RICEが既存手法よりも厳しい最適性ギャップの上界を持つことを示した。
また、様々なシミュレーション環境とリアルワールドのアプリケーションにおいて、RICEが既存の改善手法を大きく上回る性能向上を達成することを実証した。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zelei Cheng,... at arxiv.org 05-07-2024
https://arxiv.org/pdf/2405.03064.pdfDeeper Inquiries