核心概念
大規模言語モデルを用いた指示理解能力の評価は、従来の人間による評価に代わる効率的な方法として注目されているが、現状のモデルにはまだ大きな課題がある。
摘要
本研究では、大規模言語モデルの指示理解能力を評価するための新しいベンチマーク「LLMBAR」を提案した。LLMBARは、指示に忠実に従う出力と逸脱した出力のペアから成り、人間の専門家による高い合意率で評価されている。
実験の結果、現在の大規模言語モデルベースの評価手法は、LLMBARにおいて人間の専門家に大きく劣る性能を示すことが明らかになった。特に、見た目の良さなどの表面的な特徴に惑わされやすい傾向がある。
そこで本研究では、新しい prompting 戦略を提案し、それらを組み合わせることで大規模言語モデルベースの評価手法の性能を大幅に改善できることを示した。これにより、より信頼できる指示理解能力の評価が可能になると期待される。
統計資料
指示に忠実に従う出力と逸脱した出力の間には明確な質的差異がある。
人間の専門家による評価の一致率は94%と非常に高い。
現在の大規模言語モデルベースの評価手法は、人間の専門家に比べて10%以上低い性能を示す。
引述
"LLMBARは、指示に忠実に従う出力と逸脱した出力のペアから成り、人間の専門家による高い合意率で評価されている。"
"実験の結果、現在の大規模言語モデルベースの評価手法は、LLMBARにおいて人間の専門家に大きく劣る性能を示すことが明らかになった。"
"本研究では、新しい prompting 戦略を提案し、それらを組み合わせることで大規模言語モデルベースの評価手法の性能を大幅に改善できることを示した。"