Grunnleggende konsepter
提案手法RL-ACRは、強化学習(RL)ポリシーと制御正則化(MPC)ポリシーを動的に組み合わせることで、重要システムの安全性を確保しつつ最適な制御性能を達成する。
Sammendrag
本論文では、重要システムの制御問題に対して、強化学習(RL)と制御正則化(MPC)を組み合わせた手法RL-ACRを提案している。重要システムとは、制御動作に安全性が求められる医療や工学分野のシステムを指す。
RL-ACRは以下の3つのモジュールから構成される:
MPCモジュール: 推定モデルに基づいて安全制約を満たす制御動作を生成する。
RLモジュール: モデルフリーの強化学習を行い、環境への適応性を高める。
"focus"モジュール: RLポリシーとMPCポリシーの組み合わせ比率を動的に学習する。
この構成により、RL-ACRは以下の2つの特性を実現する:
安全性: MPCモジュールが安全制約を満たす制御動作を生成することで、学習中の安全性を確保する。
適応性: "focus"モジュールがRLポリシーとMPCポリシーの組み合わせ比率を最適化することで、推定モデルの誤差に適応できる。
提案手法RL-ACRは、医療分野の重要制御問題と4つの古典的制御問題で検証され、安全性と適応性の両立を実現できることが示された。特に医療分野の問題では、従来手法が安全性を満たせないのに対し、RL-ACRは全ての試行で安全性を確保しつつ優れた制御性能を達成した。
Statistikk
血糖値の目標範囲は3.9 mmol/Lから7.8 mmol/Lの間である。
血糖値が25 mmol/L以上の高血糖や3 mmol/L以下の低血糖は危険な状態である。
RL-ACRは全ての試行で安全な範囲内を維持できた。