核心概念
制御ポリシーを合成して、信号時間論理タスクの時間的堅牢性を向上させる。
統計
「我々は未知の確率的環境で信号時間論理(STL)によって記述された仕様を満たす制御ポリシーを設計する問題」
「STLは連続メトリックロジックに基づく高レベルな仕様言語であり」
「Q-learningアルゴリズムが提案手法に適用され」
引用
「自律システムは動的環境で運用され、複雑なリアルタイム決定を行う必要がある。」
「STLは連続メトリックロジックに基づく高レベルな仕様言語であり」
「Q-learningアルゴリズムが提案手法に適用され」