Core Concepts
強化学習において、安全性を確保するための新しいアプローチを提案し、効果的な安全なポリシーを生成する。
Abstract
強化学習は意思決定を革新し、実世界のシナリオでの安全性確保が重要な課題である。従来の安全な強化学習手法では、事前に定義された安全制約を組み込むことが一般的だが、動的かつ予測不可能な現実世界ではそのような制約が利用できず適応性に欠ける。本論文では、パラメータ付き信号時間論理(pSTL)セーフティ仕様と小規模な初期ラベル付きデータセットから始めて、双子遅延深層決定ポリシーグラジエント(TD3)アルゴリズムのラグランジュ変種を使用して制約付きポリシー最適化を統合し、pSTLセーフティ仕様のパラメータを最適化するバイレベル最適化タスクとして問題をフレーム化した。実験によりこのアプローチの有効性が検証され、さまざまな形式の環境制約に対して高い収益率で安全なRLポリシーが得られることが示された。
Stats
パラメータ付き信号時間論理(pSTL)セーフティ仕様
双子遅延深層決定ポリシーグラジエント(TD3)アルゴリズム
安全性確保率: 90%
バイレベル最適化タスク
パラメータ最適値: p∗
Quotes
"従来の安全な強化学習手法では、事前に定義された安全制約を組み込むことが一般的だった。"
"我々は同時に正確なpSTLパラメータと最適ポリシーを学ぶことを目指す究極的目標"
"我々はバイレベル最適化フレームワーク内で2つのコンポーネントに分割された安全なRLポリシーの学習方法"