核心概念
ロボットが課題パフォーマンスとアクション実行コストのトレードオフを考慮して意思決定を行う際、コスト予測関数の学習過程に下流の意思決定問題を組み込むことで、より良い意思決定が可能になる。
摘要
本研究では、多ロボット意思決定問題において、課題パフォーマンスを表す既知の単調部分モジュラ関数と、文脈に依存するコスト関数のトレードオフを最適化する枠組みを提案している。
具体的には以下の通り:
- 課題パフォーマンスは単調部分モジュラ関数で表され、コストは線形関数で表される。
- コスト関数のパラメータは未知であり、観測される文脈に依存する。
- 従来のアプローチでは、まずコスト予測関数を学習し、その後の意思決定問題に適用するが、予測精度と意思決定性能が必ずしも一致しない。
- 本研究では、意思決定問題を学習過程に組み込むことで、より良い意思決定が可能になる。
- 非単調部分モジュラ最大化問題を微分可能な形式で解くアルゴリズム(D-CSG)を提案し、これを用いて意思決定指向学習フレームワークを構築した。
- 数値シミュレーションの結果、提案手法は従来手法に比べ、少ないサンプル数の場合に優れた性能を示すことを確認した。
統計資料
提案手法のD-CSGアルゴリズムは、従来のCSGアルゴリズムと比べて、目的関数値が平均して80%以上の性能を達成した。
D-CSGアルゴリズムは、CSGアルゴリズムに比べて20-30倍の計算時間を要した。
引述
"従来のアプローチでは、まずコスト予測関数を学習し、その後の意思決定問題に適用するが、予測精度と意思決定性能が必ずしも一致しない。"
"本研究では、意思決定問題を学習過程に組み込むことで、より良い意思決定が可能になる。"