本論文では、敵対的フィードバックに対して頑健なコンテキスト二者択一バンディットのアルゴリズムを提案している。
具体的には以下の通り:
不確実性重み付きの最尤推定法(MLE)に基づくアルゴリズムRCDBを提案した。このアルゴリズムは、潜在的に信頼できないフィードバックに対してより慎重に対処することで、敵対的フィードバックの影響を低減する。
RCDBのレグレット上界を分析し、敵対的フィードバックの数Cに対して線形の依存性を持つことを示した。さらに、この依存性が最適であることを示す下界も証明した。
様々な種類の敵対的フィードバックに対するRCDBの性能を評価する実験を行い、提案手法の優位性を確認した。特に、敵対的フィードバックの知識を利用しない場合でも、RCDBが他手法に比べて頑健であることが示された。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Qiwei Di,Jia... om arxiv.org 04-17-2024
https://arxiv.org/pdf/2404.10776.pdfDiepere vragen