Core Concepts
CDEは、オフラインRLでの保守的なアプローチを提供し、希少なデータやスパースな報酬設定で優れたパフォーマンスを発揮します。
Abstract
オフラインRLは、事前収集されたデータセットから政策を学習する有望な方向性です。
CDEは、D4RLベンチマークで他のベースラインを凌駕し、特にMaze2Dドメインで顕著な改善を示しました。
重要な結果として、CDEはほとんどすべてのタスクで最高のスコアを達成しました。
パラメータ研究では、過剰な保守性が一部のタスクでパフォーマンス低下につながることが示されました。
Stats
CDEはD4RLベンチマークで最高のパフォーマンスを達成しました。
CDEはMaze2Dドメインで他のベースラインを凌駕しました。
Quotes
"CDEはオフラインRLにおいて新しいアプローチを提供します。"
"CDEは希少なデータやスパースな報酬設定で優れたパフォーマンスを発揮します。"