Core Concepts
検索可能性スコアの計算には検索クエリ生成手法が大きな影響を与える。人工的に生成したクエリと実際のユーザークエリを使った場合では、検索可能性スコアに大きな差が生じる。
Abstract
本研究では、検索可能性の計算に使用する検索クエリ生成手法の違いが、最終的な検索可能性スコアにどのような影響を与えるかを検証した。
4つの人工的なクエリ生成手法と、実際のユーザークエリログ(AOLクエリログ)を使って検索可能性スコアを計算した。
人工クエリと実ユーザークエリを使った場合では、検索可能性スコアの分布に大きな違いが見られた。特に、AOLクエリログを使った場合に最も偏った分布となった。
人工クエリ生成手法の中では、Azzopardi and Vinay [8]の手法が最も均等な分布を示した。一方、他の手法では偏った分布となった。
ルールベースの新しい人工クエリ生成手法を提案し、実験した結果、比較的均等な分布が得られた。
これらの結果から、検索可能性の評価には検索クエリ生成手法の選択が大きな影響を与えることが分かった。再現性のある検索可能性の評価には、適切なクエリ生成手法の選択が重要である。
Stats
検索可能性スコアのジニ係数は、AOLクエリログを使った場合、Robust04で0.6032、WT10gで0.6541、Wikipediaで0.6798と最も高い値を示した。
ルールベースの人工クエリ生成手法(RSQ)を使った場合、Robust04で0.3052、WT10gで0.5009、Wikipediaで0.4820と最も低い値を示した。
Quotes
"検索可能性スコアの計算には検索クエリ生成手法が大きな影響を与える。人工的に生成したクエリと実際のユーザークエリを使った場合では、検索可能性スコアに大きな差が生じる。"
"これらの結果から、検索可能性の評価には検索クエリ生成手法の選択が大きな影響を与えることが分かった。再現性のある検索可能性の評価には、適切なクエリ生成手法の選択が重要である。"