핵심 개념
多目的強化学習問題を単一目的の強化学習問題に分解し、各サブ問題に対して最適なスカラー化ベクトルを効率的に探索することで、パレート最適解集合の高品質な近似を得る。
초록
本研究では、多目的強化学習(MORL)問題を単一目的の強化学習問題に分解し、各サブ問題に対して最適なスカラー化ベクトルを効率的に探索することで、パレート最適解集合の高品質な近似を得る手法を提案している。
具体的には以下の2つの特徴がある:
-
2層の問題分解:
- 第1層では、スカラー化ベクトル空間Wを複数のサブ空間Wkに分割し、各サブ空間に対して独立にポリシーを学習する。
- 第2層では、各サブ空間Wkにおいて、スカラー化ベクトルを条件付けたアクター・クリティックネットワークを用いて、ポリシーを学習する。
-
UCBベースの探索:
- 各学習ステージにおいて、ハイパーボリュームの最大化を目的として、UCB基準に基づいてスカラー化ベクトルを選択する。
- これにより、探索と活用のバランスを取りながら、効率的にパレート最適解集合を近似できる。
提案手法は、既存の多目的強化学習手法と比較して、より高品質なパレート最適解集合を生成できることが示されている。また、必要なポリシーの数が少ないため、メモリ効率も良い。さらに、学習したポリシーは、スカラー化ベクトルの細かい離散化に対しても良好に一般化できることが確認された。
통계
多目的強化学習問題のパフォーマンスを表すハイパーボリュームの値は、提案手法が既存手法を大きく上回っている。
提案手法では、必要なポリシーの数が既存手法と比べて大幅に少ない。
提案手法のポリシーは、スカラー化ベクトルの細かい離散化に対しても良好に一般化できる。
인용구
"多目的強化学習問題を単一目的の強化学習問題に分解し、各サブ問題に対して最適なスカラー化ベクトルを効率的に探索することで、パレート最適解集合の高品質な近似を得る。"
"UCB基準に基づいてスカラー化ベクトルを選択することで、探索と活用のバランスを取りながら、効率的にパレート最適解集合を近似できる。"
"提案手法は、必要なポリシーの数が既存手法と比べて大幅に少なく、メモリ効率が良い。"