本研究では、クーポン配布における即時収益と将来のオフポリシー評価のバランスを取るための新しいアプローチを提案している。
具体的には以下の2つの主要な貢献がある:
モデルベースの収益最大化ポリシーと確率的探索ポリシーを組み合わせた混合ポリシーを提案し、データ収集と収益獲得のトレードオフを柔軟に調整できるようにした。
この最適な混合比率を多目的最適化問題として定式化することで、定量的にこのトレードオフを評価・制御できるようにした。
実験では、提案手法の有効性を合成データを用いて検証した。この枠組みは、クーポン配布以外の探索-活用のトレードオフが重要な場面にも応用可能である。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Naoki Nishim... klokken arxiv.org 09-10-2024
https://arxiv.org/pdf/2407.11039.pdfDypere Spørsmål