本研究では、クーポン配布における即時収益と将来のオフポリシー評価のバランスを取るための新しいアプローチを提案している。
具体的には以下の2つの主要な貢献がある:
モデルベースの収益最大化ポリシーと確率的探索ポリシーを組み合わせた混合ポリシーを提案し、データ収集と収益獲得のトレードオフを柔軟に調整できるようにした。
この最適な混合比率を多目的最適化問題として定式化することで、定量的にこのトレードオフを評価・制御できるようにした。
実験では、提案手法の有効性を合成データを用いて検証した。この枠組みは、クーポン配布以外の探索-活用のトレードオフが重要な場面にも応用可能である。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések