この記事では、線形混合MDPにおけるバンディットフィードバックと未知の遷移に焦点を当て、新しいアルゴリズムの開発が行われました。提案されたアルゴリズムは、従来の手法よりも高い確率で改善された後悔を達成することが示されました。具体的には、未知の遷移パラメーターの推定や信頼区間の構築、損失関数の推定などが行われました。さらに、オンラインミラーディセント(OMD)を使用して占有率測定値を更新する方法も導入されました。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Long-Fei Li,... om arxiv.org 03-08-2024
https://arxiv.org/pdf/2403.04568.pdfDiepere vragen