Core Concepts
長文書類ランキングモデルの性能は、標準的なコレクションでは小さな改善しか示さないが、関連パッセージの位置バイアスが大きく変化するコレクションでは大きな差が現れる。
Abstract
本研究では、20以上の最新のTransformerモデルを用いた長文書類ランキングの包括的な評価を行った。MS MARCO Documentsコレクションとロバスト04コレクションを使用し、FirstPベースラインと比較した。
初期の実験では、長文書類ランキングモデルはFirstPに劣るか、せいぜい5%程度の改善しか示さなかった。この原因を分析したところ、関連パッセージが文書の先頭に集中する位置バイアスが存在することが分かった。
そこで、関連パッセージが文書の先頭512トークン以降に存在するMS MARCO FarRelevantコレクションを新たに作成した。このコレクションを用いた実験では、以下の知見が得られた:
FirstPモデルは事実上ランダムレベルの性能しか示さなかった
単純な集約モデルはゼロショット精度は良いが、fine-tuningの恩恵は小さかった
一方、他のほとんどのモデルはゼロショット精度が低いが、fine-tuningによって大幅に(最大27.7%)性能が向上した
これらの結果は、位置バイアスが長文書類の処理による恩恵を減じるだけでなく、モデルのバイアス学習を招き、分布シフトのある状況でのゼロショット性能を大幅に低下させることを示唆している。
Stats
関連パッセージの文書内開始位置は、MS MARCO devセットで85.9%が先頭512トークン以内、FIRA[24]のクラウドソーシングデータでも83.8%が先頭512トークン以内であった。