Core Concepts
偏りのない学習ランキング(ULTR)手法は、大規模な実世界のバイドゥ検索データセットでは、明確な性能向上をもたらさない。むしろ、ランキングロスや入力特徴量の選択が、性能に大きな影響を与える。
Abstract
本論文は、偏りのない学習ランキング(ULTR)手法が、大規模な実世界のバイドゥ検索データセットでの性能向上に寄与するかを検証している。
主な知見は以下の通り:
ULTR手法は、ナイーブな手法と比べて、明確な性能向上をもたらさない。一方で、ランキングロスや入力特徴量の選択が、性能に大きな影響を与える。
言語モデルの事前学習時にULTR手法を適用すると、大きな影響がある。ただし、その影響は手法によって異なり、一概に良い結果が得られるわけではない。
クリック予測の性能向上が、専門家による関連性アノテーションに基づくランキング性能の向上につながらない。クリック予測と関連性ランキングは、本データセットでは異なる目的となっている。
全体として、ULTR手法の実世界での有効性は限定的であり、データセットの特性やモデルの設計に大きく依存することが示された。今後は、より現実的な実験設定を検討し、ULTR手法の適用範囲を明確にする必要がある。
Stats
平均クリック率は0.084で、セッションあたりの平均クリック数は0.688である。
46.581%のセッションで1回以上のクリックがある。
13.082%のセッションで2回以上のクリックがある。