本論文では、無線リソース管理問題に対して、オフラインおよび分布強化学習アルゴリズムを提案している。従来の強化学習は、環境との対話を必要とするため、実世界の問題に適用するのが困難であった。また、平均性能のみを考慮し、不確実性やリスクを考慮していなかった。
提案手法では、オフラインでの学習を行い、リターンの分布を考慮することで、これらの課題に対処する。具体的には、保守的Q学習(CQL)とQuantile Regression DQN(QR-DQN)を組み合わせた保守的Quantile Regression(CQR)アルゴリズムを提案している。
シミュレーション結果より、提案手法は従来手法を大きく上回る性能を示し、オンラインの強化学習アルゴリズムをも凌駕することが確認された。特に、小さなデータセットでも良好な性能を発揮することが示された。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問