核心概念
推薦システムの長期的成功を評価するためには、短期的なA/B実験結果だけでなく、長期的な影響も考慮する必要がある。
要約
このコンテンツは、推薦システムの開発者や異質なユーザーを含む概念モデルを分析しています。新しいアルゴリズム導入後の過渡期におけるA/B実験結果が、長期的成功を正確に反映しない可能性があることが示されています。特に、異なるセグメントへの影響やバイアスが議論されています。これらの洞察は、現実世界の推薦システムに深刻な影響を及ぼす可能性があります。
統計
一つのセグメントでARQが上昇し、他方で低下する条件:(12α + 3)q3 + (3 − 4α)q1 > 8α + 3, 6q3 + 2q1 < 5
ARQと離反したメトリクスを示す条件:(4α − 3)q1 + 8α + 3 < q3 < 5 − 2q1
長期的成功よりも瞬時的改善を示す条件:(12α + 3)q3 + (3 − 4α)q1 > 8α + 3, (6/((4α+1)/(1−q3))+(3−4α)/(1−q1)) < (8(4α+3)/3)
引用
A/B実験は通常RSの効果を決定するための金基準と見なされている(Fabijan et al.,2020)。
多くの著者はライブテスト結果を提示して自身の提案手法の優越性を主張している(Amatriain & Basilico,2015)。
開発者は新しいアルゴリズム導入後すぐにライブテストを行う傾向がある(Soria,2020)。