Centrala begrepp
短期的な報酬と長期的な報酬のバランスを取ることが重要であり、提案されたアプローチは、この目標を達成するための原則的な方法を提供する。
Sammanfattning
本論文は、短期的な報酬と長期的な報酬のバランスを取るための最適な政策を学習する新しい枠組みを提案している。
まず、短期的な報酬と長期的な報酬を定義し、最適な政策を特定する。次に、交絡バイアスと長期的な成果の欠落に対処するために、二つの仮定を導入する。これにより、短期的な報酬と長期的な報酬の同定可能性が確保される。
効率的な影響関数とセミパラメトリック効率境界を導出し、一貫性、漸近正規性、セミパラメトリック効率を持つ新しい推定量を開発する。さらに、短期的な成果が長期的な報酬の推定に役立つことを示す。
提案された推定量に基づいて、原則的な政策学習アプローチを開発し、学習された政策に関連する後悔率と推定誤差の収束率を導出する。
最後に、提案手法の有効性を検証するための広範な実験を行う。
Statistik
短期的な報酬と長期的な報酬のバランスを取ることが重要である。
長期的な成果は観測が困難であり、欠落が深刻な問題となる。
短期的な成果は長期的な成果の欠落率に影響を与える。
Citat
"長期的な影響の重要性は疑いようがないが、それに過度に重点を置くと、短期的な利益を見落とす恐れがある。"
"長期的な効果は短期的な効果とは大きく異なる場合があり、時には逆の傾向を示すこともある。"