Core Concepts
クエリ拡張は強力なクロスエンコーダーランカーの一般化を改善できる可能性がある。
Abstract
本論文は、クエリ拡張がクロスエンコーダーランカーの一般化に与える影響について調査している。
まず、既存のクエリ拡張手法をMonoT5やRankT5といった強力なクロスエンコーダーランカーに適用したところ、性能が低下することを確認した。
その原因として、クロスエンコーダーランカーはキーワード生成の品質と入力クエリの分布変化に敏感であることを指摘した。
そこで、大言語モデルを使ってキーワードを高品質に生成し、各拡張クエリの結果を動的に融合することで、RankT5とMonoT5の性能を改善できることを示した。
具体的には以下の2つのステップを提案している:
大言語モデルを使ってキーワードを推論チェーンを通して生成し、self-consistencyを用いて高品質なキーワードを選択する。
各拡張クエリの結果をreciprocal rank weightingで融合し、オリジナルクエリの結果と組み合わせる。
提案手法は、BEIR及びTREC Deep Learning 2019/2020のデータセットでnDCG@10を改善し、強力なクロスエンコーダーランカーにクエリ拡張を適用する新しい方向性を示している。
Stats
提案手法を適用したRankT5のnDCG@10はTREC DL 2019で0.751、2020で0.752となり、ベースラインを上回った。
提案手法を適用したMonoT5のnDCG@10はTREC DL 2019で0.724、2020で0.730となり、ベースラインを上回った。
BEIRデータセットでも提案手法を適用したRankT5とMonoT5が最高のnDCG@10スコアを記録した。
Quotes
"クエリ拡張は一般的に第一段階のリトリーバーの精度を改善するために広く使われているが、第二段階のクロスエンコーダーランカーへの影響は十分に検討されていない。"
"強力なランカーであるMonoT5やRankT5にクエリ拡張を適用すると、性能が低下することが分かった。"
"クロスエンコーダーランカーは、キーワードの生成品質と入力クエリの分布変化に特に敏感である。"