Core Concepts
データトレーニングループによる干渉を軽減するために、各データポイントがコントロールデータまたは処理データに含まれる確率を予測するモデルを構築し、その予測確率に基づいて重み付きの損失関数を用いてモデルを学習する新しいアプローチを提案する。
Abstract
本論文では、A/Bテストにおけるデータトレーニングループによる干渉の問題に取り組む新しいアプローチを提案している。
まず、データトレーニングループによる干渉の問題を潜在的結果モデルを用いて定式化する。この干渉は、コントロールデータと処理データの分布の違いが、最終的な推奨アルゴリズムの予測に影響を与えることで生じる。
次に、この問題に対処するために、各データポイントがコントロールデータまたは処理データに含まれる確率を予測するモデルを構築し、その予測確率に基づいて重み付きの損失関数を用いてモデルを学習する新しいアプローチを提案する。理論的な分析により、提案手法が分布のシフトを引き起こすことなく、最小分散の推定量を得られることを示す。
シミュレーション実験の結果、提案手法は他の手法と比べて、バイアスが小さく、分散も合理的な水準に抑えられることが確認された。一方、単純なデータ分割手法は、データ効率が低いため、バイアスと分散が大きくなる傾向にある。
Stats
短い動画は一般的に完視率が高く、滞在時間が短い
長い動画は完視率が低く、滞在時間が長い
処理グループでは長い動画の割合が高くなる
コントロールグループでは短い動画の割合が高くなる
Quotes
"データトレーニングループは、A/Bテストにおける干渉を引き起こす可能性がある。"
"提案手法は、分布のシフトを引き起こすことなく、最小分散の推定量を得られる。"