EVILLは、線形に摂動された損失関数を最小化することで楽観的なモデルを生成し、効果的なランダム探索手法を提供します。PHEと比較して、データ依存型の摂動がパフォーマンス向上に寄与しました。Rayleighバンディット問題では、PHEが一貫性のない推定値と線形後悔をもたらす一方、EVILLは一貫性がありパフォーマンスが良好でした。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Davi... kl. arxiv.org 03-07-2024
https://arxiv.org/pdf/2311.07565.pdfDybere Forespørgsler