核心概念
既存のキャリブレーション手法が不十分であることを明らかにし、ペアワイズ比較を導入した新たな評価パラダイムであるPAIRSが、人間の判断とより一致した評価を実現することを示唆。
要約
大規模言語モデル(LLMs)は自然言語生成タスクの品質評価において有望な能力を示すが、人間の判断との一致に苦しむ偏りや不連続性が存在する。
キャリブレーション手法はLLM評価者を人間の判断に合わせる際に不十分であることが明らかになった。
新しいPAIRS方法は、ペアワイズ比較を通じて効率的に候補テキストをランク付けし、従来の直接スコアリングよりも優れたパフォーマンスを発揮する。
PAIRSは代表的な評価タスクで使用され、キャリブレーションや推移性から利益を得る。
1. 導入
大規模言語モデル(LLMs)は自然言語生成タスクで有望な能力を示すが、人間の判断と一致しない偏りや不連続性が問題となっている。
2. 評価者の偏りと不連続性
LLMsは直接スコアリングでは人間の判断と一致しないことが多い。
キャリブレーション手法はこの問題を解決する際に限界があることが示されている。
3. 新たな評価パラダイム:PAIRS方法
PAIRSはペアワイズ比較を導入し、候補テキストをランク付けして効果的な評価を実現する。
PAIRSは従来手法よりも優れたパフォーマンスを示し、キャリブレーションや推移性から利益を得る。
統計
LLMsは自然言語生成タスクで有望な能力を示す(Brown et al., 2020)。
キャリブレーション手法はLLM評価者と人間の判断の一致に限界がある(Liu et al., 2023b)。