この記事では、線形混合MDPにおけるバンディットフィードバックと未知の遷移に焦点を当て、新しいアルゴリズムの開発が行われました。提案されたアルゴリズムは、従来の手法よりも高い確率で改善された後悔を達成することが示されました。具体的には、未知の遷移パラメーターの推定や信頼区間の構築、損失関数の推定などが行われました。さらに、オンラインミラーディセント(OMD)を使用して占有率測定値を更新する方法も導入されました。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Long-Fei Li,... at arxiv.org 03-08-2024
https://arxiv.org/pdf/2403.04568.pdfDeeper Inquiries