Grunnleggende konsepter
単一のニューラルネットワークを用いて、多目的強化学習問題におけるパレート最適解集合を効率的に学習する、潜在条件付き政策勾配法(LC-MOPG)を提案する。
Sammendrag
多目的深層強化学習のための潜在条件付き政策勾配法:論文要約
Kanazawa, T., & Gupta, C. (2024). Latent-Conditioned Policy Gradient for Multi-Objective Deep Reinforcement Learning. arXiv preprint arXiv:2303.08909v2.
本研究は、深層強化学習において、複数の競合する目的を同時に最適化する問題設定における、効率的なパレート最適解集合の探索手法を提案することを目的とする。