Conceitos essenciais
本稿では、正規化ワッサーシュタイン損失であるSinkhornダイバージェンスを用いた新たな分布強化学習アルゴリズムであるSinkhornDRLを提案し、従来のQuantile Regressionベースの手法に比べて、特に多次元報酬設定において優れた性能を発揮することを示す。
Resumo
正規化ワッサーシュタイン損失を用いた分布強化学習:論文要約
Ke Sun, Yingnan Zhao, Wulong Liu, Bei Jiang, Linglong Kong. (2024). Distributional Reinforcement Learning with Regularized Wasserstein Loss. Advances in Neural Information Processing Systems, 38.
本研究は、従来の分布強化学習アルゴリズム、特にQuantile Regressionベースの手法における、報酬分布の特性を正確に捉えられない点や多次元報酬への拡張の難しさといった課題を克服することを目的とする。