Core Concepts
モデルベース強化学習では、環境のダイナミクスモデルを学習し、その予測に基づいて最適な行動を見つけ出す。しかし、モデルの予測誤差が大きい場合、想像された軌道を信頼できない。本研究では、想像された軌道の信頼性を オンラインで評価する手法を提案し、不要な軌道の再計算を回避することで計算コストを大幅に削減する。
Abstract
本研究では、モデルベース強化学習(MBRL)における想像された軌道の信頼性を評価する手法を提案している。
MBRL では、環境のダイナミクスモデルを学習し、そのモデルを使って未来の状態を予測し、最適な行動を見つけ出す。しかし、モデルの予測誤差が大きい場合、想像された軌道を信頼できない。
そこで本研究では、以下の4つの手法を提案している:
First Step Alike (FSA):
直前の行動の予測誤差が過去の平均誤差と同程度であれば、その後の軌道も信頼できると判断し、再計算を省略する。
Confidence Bounds (CB):
ダイナミクスモデルが出力する不確実性の情報を使い、実際の状態が予測範囲内に収まっていれば、再計算を省略する。
Probabilistic Future Trust (FUT):
再計算後の軌道と、現在の状態から再計算した軌道を比較し、大きな差がなければ、再計算を省略する。
Bound Imagined Cost Horizon Omission (BICHO):
再計算後の報酬分布と、現在の状態から再計算した報酬分布を比較し、大きな差がなければ、再計算を省略する。
これらの手法を使うことで、大幅な計算コスト削減を実現しつつ、性能の劣化を最小限に抑えられることを示している。特に、BICHO は最も優れた結果を示し、最大80%の再計算を省略できることを明らかにしている。
Stats
再計算を省略しても、報酬の低下は最大20%程度に抑えられる。
BICHO は最大80%の再計算を省略できる一方で、性能の低下は最小限に抑えられる。
Quotes
"モデルベース強化学習(MBRL)では、環境のダイナミクスモデルを学習し、そのモデルを使って未来の状態を予測し、最適な行動を見つけ出す。"
"しかし、モデルの予測誤差が大きい場合、想像された軌道を信頼できない。"
"本研究では、想像された軌道の信頼性をオンラインで評価する手法を提案し、不要な軌道の再計算を回避することで計算コストを大幅に削減する。"