Основні поняття
大規模言語モデルを使ったテキストランキングにおいて、ペアワイズランキングプロンプティングは、従来の手法よりも優れた性能を発揮する。
Анотація
本論文では、大規模言語モデルを使ったテキストランキングの課題について分析し、ペアワイズランキングプロンプティング(PRP)を提案している。
従来の手法には以下の問題点があった:
ポイントワイズアプローチでは、言語モデルの出力確率の較正が難しい
リストワイズアプローチでは、言語モデルの出力が不安定で、矛盾したり無意味な出力が多い
これに対し、PRPは以下の特徴を持つ:
クエリと2つのドキュメントを入力として、どちらがより関連性が高いかを尋ねる単純なプロンプトを使う
出力確率の較正を必要とせず、生成APIとスコアリングAPIの両方に対応できる
入力順序に頑健である
PRPには以下の3つのバリアントを提案している:
PRP-Allpair: 全ての組み合わせのペアワイズ比較を行い、集計する
PRP-Sorting: ペアワイズ比較結果を使ってソートアルゴリズムを適用する
PRP-Sliding-K: 初期ランキングを基に、ペアワイズ比較を用いて上位K件のランキングを調整する
実験の結果、PRPは従来手法を大きく上回る性能を示し、特に中規模の言語モデルでも最先端の性能を達成できることが分かった。
Статистика
大規模言語モデルGPT-4は推定で1兆パラメータを持つ
FLAN-UL2は200億パラメータ、FLAN-T5-XLは30億パラメータ