本論文は、モデルフリー安全強化学習における安全制約と過大評価問題に対処する新しい手法である安全変調器付きアクタークリティック(SMAC)を提案する。
従来の安全強化学習手法では、報酬と安全制約の両方を考慮する必要があり、学習が困難になる場合があった。そこで本論文では、安全モジュレータを導入することで、ポリシーが報酬の最大化に集中できるようにした。安全モジュレータは、ポリシーによって出力された危険な行動を修正し、安全性を確保する役割を担う。これにより、ポリシーは安全制約を意識することなく、報酬の最大化に専念できるようになる。
強化学習では、Q値の過大評価が問題となる場合がある。過大評価は、最適ではないポリシーの学習につながる可能性がある。本論文では、分布型クリティックを用いることで、過大評価を緩和する。分布型クリティックは、Q値の分布を学習することで、過大評価を抑制する。
提案手法の有効性を検証するため、UAVホバリングタスクにSMACを適用した。シミュレーションと実機実験の両方を行い、SMACが安全制約を維持しながら、従来手法よりも高い性能を達成することを確認した。
本論文では、安全変調器と分布型クリティックを組み合わせた新しい安全強化学習手法であるSMACを提案した。SMACは、安全制約を維持しながら、高い性能を達成することができる。本手法は、UAVホバリングタスクのような、安全性が重要なアプリケーションにおいて特に有用であると考えられる。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies