本論文では、オフラインデータを活用した多腕バンディット問題を考える。従来の多腕バンディット問題では、
オンラインでの学習のみを行っていたが、現実世界では過去のデータが存在する場合がある。
そこで本論文では、オフラインデータを活用することで、オンラインでの学習を促進することを目的とする。
まず、理論的な解析から、オフラインデータの有無に関わらず、従来の手法であるUCBアルゴリズムよりも良い
性能を達成することは不可能であることを示す。これは、オフラインデータとオンラインの報酬分布の差が
大きい場合、オフラインデータを活用しても性能が向上しないためである。
そこで本論文では、オフラインデータとオンラインの報酬分布の差を表す上界を利用したアルゴリズムMIN-UCBを
提案する。MIN-UCBは、オフラインデータとオンラインの報酬分布の差が小さい場合はオフラインデータを活用し、
差が大きい場合はオフラインデータを無視することで、従来手法よりも良い性能を達成する。
理論的な解析から、MIN-UCBの後悔regretの上界と下界を導出し、提案手法の最適性を示す。
最後に数値実験を行い、提案手法MIN-UCBが従来手法に比べて優れた性能を示すことを確認する。
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Wang Chi Che... pada arxiv.org 05-07-2024
https://arxiv.org/pdf/2405.02594.pdfPertanyaan yang Lebih Dalam