Core Concepts
Koopmanモデルを用いた(e)NMPCにおける最適性のエンドツーエンド強化学習手法を提案する。
Abstract
(E)NMPCにおける動的モデルのトレーニング方法とその性能比較を示す。
システム識別からエンドツーエンド学習への手法を明確に説明。
NMPCとeNMPCアプリケーションでのコントローラー性能を評価。
Koopman-SI、Koopman-RL、MLPコントローラー間の比較結果を提供。
Stats
システム識別やRLトレーニング中に使用される様々なパラメータ値が含まれています。
Quotes
"End-to-end training of Koopman models for optimal performance in (e)NMPC applications with hard constraints on states."
"Using RL to train dynamic surrogate models promises to combine the aforementioned advantages of model-based policies with the typical advantage of end-to-end learning over SI."
"We show that the end-to-end trained models outperform those trained using system identification in (e)NMPC."