本研究では、大規模言語モデルの指示理解能力を評価するための新しいベンチマーク「LLMBAR」を提案した。LLMBARは、指示に忠実に従う出力と逸脱した出力のペアから成り、人間の専門家による高い合意率で評価されている。
実験の結果、現在の大規模言語モデルベースの評価手法は、LLMBARにおいて人間の専門家に大きく劣る性能を示すことが明らかになった。特に、見た目の良さなどの表面的な特徴に惑わされやすい傾向がある。
そこで本研究では、新しい prompting 戦略を提案し、それらを組み合わせることで大規模言語モデルベースの評価手法の性能を大幅に改善できることを示した。これにより、より信頼できる指示理解能力の評価が可能になると期待される。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Zhiyuan Zeng... alle arxiv.org 04-17-2024
https://arxiv.org/pdf/2310.07641.pdfDomande più approfondite