本論文は、強化学習(RL)における平均処理効果(ATE)推定量の精度を最大化するための実験設計について分析している。特に、スイッチバック設計に着目し、その性能を理論的に評価している。
主な知見は以下の通り:
報酬誤差が主に正の相関を示す場合、スイッチバック設計は代替日設計よりも効率的である。さらに、スイッチ頻度を上げることで、ATE推定量の平均二乗誤差(MSE)を低減できる。
誤差が無相関の場合、これらの設計は漸近的に等価となる。
誤差が主に負の相関を示す場合、代替日設計が最適となる。
これらの洞察は、A/Bテストにおける最適な実験設計を選択する際の指針となる。分析には、モデルベース推定量、最小二乗時間差学習推定量、双対強化学習推定量など、様々な ATE 推定量が考慮されている。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問