核心概念
本稿では、事前学習済み言語モデルの検索タスクへの適用に焦点を当て、文脈内事例を用いることで検索モデルの性能を向上させる新しいアプローチ「RARe」を提案する。
本論文は、文脈内事例を用いて検索モデルの性能を向上させる手法「RARe」を提案する。従来の検索モデルは、クエリと文書を独立に埋め込むため、文脈情報を利用できない点が課題であった。RAReは、クエリに関連する文脈内事例を検索結果に追加することで、検索モデルが文脈情報を考慮できるようにする。具体的には、BM25を用いてクエリに類似した文脈内事例を検索し、それらをクエリに追加して検索モデルに入力する。実験の結果、RAReは既存の検索モデルと比較して、BeIRベンチマークとRAR-bベンチマークにおいて最大でそれぞれ+1.41%、+2.72%のnDCG@10の性能向上を示した。
論文の貢献
文脈内事例を用いた検索モデルの新しい学習手法「RARe」を提案。
RAReが、デコーダのみのモデルや既存の検索モデルなど、様々なベースアーキテクチャの性能を向上させることを実証。
文脈内事例の質、量、選択が性能に与える影響に関する詳細な分析を提供。
従来手法の問題点
従来の検索モデルは、クエリと文書を独立に埋め込むため、文脈情報を利用できない点が課題であった。例えば、「猫」というクエリに対して、「ペット」という文脈が与えられた場合、従来の検索モデルは「猫」に関連する文書を検索するだけで、「ペット」という文脈を考慮することができない。
RAReの提案
RAReは、クエリに関連する文脈内事例を検索結果に追加することで、検索モデルが文脈情報を考慮できるようにする。具体的には、以下の手順でRAReは動作する。
BM25を用いてクエリに類似した文脈内事例を検索する。
検索された文脈内事例をクエリに追加する。
クエリと文脈内事例を検索モデルに入力する。
実験結果
BeIRベンチマークとRAR-bベンチマークを用いて、RAReの性能を評価した。その結果、RAReは既存の検索モデルと比較して、最大でそれぞれ+1.41%、+2.72%のnDCG@10の性能向上を示した。
分析
文脈内事例の質、量、選択が性能に与える影響について分析した。その結果、以下のことがわかった。
文脈内事例の質が高いほど、性能が向上する。
文脈内事例の量が多いほど、性能が向上する傾向があるが、最適な量はタスクに依存する。
文脈内事例の選択方法によって、性能が変化する。