核心概念
CMDPs involving both adversarial losses and hard constraints are studied, leading to the development of algorithms that ensure sublinear regret and constraints satisfaction.
摘要
研究は、敵対的損失と厳しい制約を伴うCMDPに焦点を当て、サブリニアリグレットと制約の満足を保証するアルゴリズムの開発につながりました。BV-OPSアルゴリズムは、サブリニアVTおよびRTを達成します。一方、S-OPSアルゴリズムは安全性プロパティを高い確率で達成します。
统计
VT ≤ O(√T ln(T|X||A|m/δ))
RT ≤ O(√T ln(T|X||A|/δ))
RT ≤ O(ΨL3|X|√T ln(T|X||A|m/δ))