Core Concepts
大規模言語モデルは、少数の検索者からの詳細なフィードバックを使って訓練することで、検索者の好みを人間の評価者よりも正確に予測できる。
Abstract
本論文では、大規模言語モデル(LLM)を使って検索結果の関連性ラベルを生成する新しい手法を提案している。従来の手法では、人間の評価者によるラベル付けに依存していたが、LLMを使うことで、より正確で信頼性の高いラベルを生成できることを示している。
具体的には以下の通り:
少数の検索者からの詳細なフィードバックを使ってLLMのプロンプトを調整することで、LLMが検索者の好みを正確に反映したラベルを生成できる
LLMによるラベルは、人間の評価者によるラベルよりも検索者の好みとの一致度が高い
LLMによるラベルは、クエリの難易度や検索システムの評価においても、人間の評価と高い一致度を示す
LLMによるラベル生成は、コスト、速度、スケーラビリティの面でも人間の評価者を大きく上回る
このように、LLMを活用することで、より正確で信頼性の高い検索結果の評価が可能になる。
Stats
検索者の好みと一致するラベルを生成するLLMのプロンプトを調整することで、人間の評価者よりも0.28ポイント高い正確性を達成できた。
LLMによるラベル生成は、人間の評価者と比べて10倍高いスループットを実現できる。
Quotes
"LLMsはラベルの生成において、人間の評価者と同等以上の性能を発揮する"
"LLMによるラベル生成は、コスト、速度、スケーラビリティの面でも人間の評価者を大きく上回る"