Core Concepts
与えられたプロンプトと大規模言語モデルを使用して、地面なしでランキングを行う新しいアプローチを提供する。
Abstract
この研究は、大規模言語モデル(LLMs)の評価とランキングが重要な問題であることを指摘しています。従来の評価方法は、高価な人間の回答が必要であるか、LLMs同士をペアにして互いを評価する必要があります。しかし、本論文では、プロンプト(質問や指示など)のデータセットと一連のLLMsが与えられた場合に、地面真理や参照応答にアクセスせずにそれらをランク付けする新しい視点を提供します。このアイデアは実生活から着想を得ており、3つ組み合わせたモデルで最悪のモデルを高い確率で正しく識別することです。さらに、このアイデアを適用して、LLMsをランク付けする2つの方法を提案しています。異なる生成タスク(要約、多肢選択問題、ダイアログ)で行われた実験では、参照データがなくても真のランキングに近い結果が得られました。
Stats
40個のベンチマークされたモデルからインスタンス実行結果を収集
3つのトライアルが異なるパフォーマンスで実行される
Quotes
"我々は新しい方法論的手法が効果的であることを示す"
"従来の評価方法よりもコスト削減効果が期待される"