Core Concepts
ユーザーが欲しくない情報を明示的に表現する排他的な情報検索の課題に取り組む。
Abstract
本研究では、排他的な情報検索の課題に取り組んでいる。排他的な情報検索とは、ユーザーが欲しくない情報を明示的に表現する検索シナリオのことである。
まず、排他的な情報検索のための評価ベンチマーク「ExcluIR」を構築した。ExcluIRには3,452件の高品質な排他的クエリと、70,293件の排他的クエリと正負のドキュメントのペアが含まれている。
次に、ExcluIRを用いて、さまざまな情報検索モデルの性能を評価した。その結果、既存の検索モデルは排他的クエリを十分に理解できないことが分かった。ただし、ExcluIRのトレーニングデータを使ってファインチューニングすると、パフォーマンスが向上した。特に、生成型の検索モデルが排他的クエリの理解に優れていることが明らかになった。一方、ColBERTなどの後期相互作用モデルは排他的クエリの理解が苦手であることが分かった。
今後の課題として、排他的な情報検索の課題をさらに深く理解し、より高度な検索モデルを開発することが重要である。
Stats
排他的クエリの平均単語数は訓練セットが22.37、ベンチマークが21.64である。
排他的クエリの長さは多様で、複雑なレベルを反映している。
Quotes
"ユーザーが欲しくない情報を明示的に表現する排他的な情報検索の課題に取り組む。"
"既存の検索モデルは排他的クエリを十分に理解できないことが分かった。"
"生成型の検索モデルが排他的クエリの理解に優れていることが明らかになった。"