この論文は、無限の平均報酬CMDPにおける後悔と制約違反分析に初めて取り組んでいます。提案されたアルゴリズムは、T^4/5の目的後悔と制約違反境界を達成します。これは一般的なパラメータ化であり、タブロイドや線形ではありません。
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Qinbo Bai,Wa... : arxiv.org 03-05-2024
https://arxiv.org/pdf/2402.02042.pdfDaha Derin Sorular