核心概念
カウンターファクチュアル学習ランキング(CLTR)モデルは、様々な生成ランカーと複数のユーザシミュレーションモデルの下で、ベースラインの単純なクリックモデルを必ずしも上回るわけではない。新しいCLTRアルゴリズムの開発が急務である。
要約
本研究は、既存のCLTRモデルの堅牢性を調査するために、従来の単一の決定論的生成ランカーと単一のユーザシミュレーションモデルを用いた実験を拡張した。
具体的には以下の点を検討した:
生成ランカーの性能と確率的性質の影響
1%の訓練データで学習した低性能な決定論的ランカーと、20%の訓練データで学習した高性能な決定論的ランカーを使用
Plackett-Luce モデルを用いて、ランダム性の異なる生成ランカーを生成
ユーザシミュレーションモデルの影響
従来のPBMに加え、DCMとCBCMの2つの新しいユーザシミュレーションモデルを導入
実験の結果、以下の知見が得られた:
DLAモデルとIPS-DCMは、様々なシミュレーション設定の下で、IPS-PBMやPRSよりも堅牢性が高い
生成ランカーの性能が高い、あるいは確率的性質を持つ場合、既存のCLTRモデルはクリックベースラインを必ずしも上回れない
これらの結果は、より堅牢なCLTRアルゴリズムの開発の必要性を示唆している
統計
生成ランカーの性能が高い場合、既存のCLTRモデルはクリックベースラインを上回れない。
生成ランカーにランダム性がある場合、既存のCLTRモデルはクリックベースラインを上回れない。