核心概念
従来の生成検索モデルは、なぜそのドキュメントが検索されたのかを説明することができないという課題があった。本稿では、階層型カテゴリパスを用いることで、検索結果の説明可能性を高める新しい生成検索フレームワークHyPEを提案する。
要約
HyPE: 階層型カテゴリパスを用いた説明可能な生成検索
本稿では、階層型カテゴリパスを用いることで、検索結果の説明可能性を高める新しい生成検索フレームワークHyPEを提案する。従来の生成検索モデルは、クエリに対して関連性の高いドキュメントのIDを直接生成するものの、なぜそのドキュメントが検索されたのかを説明することができないという課題があった。
HyPEは、ドキュメントのIDを生成する前に、クエリに関連する階層型カテゴリパスを段階的に生成することで、この課題を解決する。具体的には、Wikipediaのカテゴリツリーを基に、各ドキュメントに適切なカテゴリパスを割り当てる。そして、クエリが入力されると、HyPEはクエリに関連するカテゴリパスを生成し、そのパスに基づいてドキュメントIDを生成する。
実験の結果、HyPEは従来の生成検索モデルと比較して、検索の精度を維持しながら、説明可能性を大幅に向上させることが示された。また、HyPEは様々なドキュメントIDタイプに適用可能であり、既存の生成検索システムにも容易に統合できる。
HyPEの利点
- 検索結果の説明可能性の向上
- 従来の生成検索モデルと同等の検索精度
- 様々なドキュメントIDタイプへの適用可能性
- 既存の生成検索システムへの容易な統合
HyPEの仕組み
- 候補パスセットの構築: Wikipediaのカテゴリツリーを基に、各ドキュメントに適切なカテゴリパスを割り当てる。
- パス拡張データセットを用いた最適化: クエリとドキュメントのペアに、関連するカテゴリパスを追加したデータセットを用いて、生成検索モデルを学習する。
- パスアウェアレランキングを用いた推論: クエリが入力されると、HyPEはクエリに関連するカテゴリパスを生成し、そのパスに基づいてドキュメントIDを生成する。最終的なランキングは、複数のパスを考慮したパスアウェアレランキングによって決定される。
結論
HyPEは、階層型カテゴリパスを用いることで、生成検索の説明可能性を向上させる効果的なフレームワークである。HyPEは、検索結果の透明性を高め、ユーザーの検索体験を向上させる可能性を秘めている。
統計
HyPEは、NQ320Kデータセットにおいて、Title Docidを用いた場合、R@1で2.3%、R@10で6.1%の精度向上を示した。
HyPEは、MS MARCOデータセットにおいて、Keyword Docidを用いた場合、R@1で1.6%、R@10で2.5%の精度向上を示した。
HyPEのパスアウェアレランキングは、考慮するカテゴリパスの数が増えるにつれて、検索精度が向上する傾向を示した。
引用
"既存の生成検索手法は、クエリが与えられるとdocidを直接デコードするため、「なぜこのドキュメントが検索されたのか」という問いに対する回答として、ユーザーに説明を提供することができない。"
"本稿では、docidをデコードする前に階層型カテゴリパスを段階的に生成することで、説明可能性を高めるHierarchical Category Path-Enhanced Generative Retrieval (HyPE)を提案する。"
"HyPEは、クエリとドキュメントの間で共有されるカテゴリパスを使用することで、同じドキュメントに対してクエリに応じて多様な説明を可能にし、粗いものから細かいものへとドキュメントの意味構造を反映することで、より合理的で洞察力のある説明を提供する。"