Alapfogalmak
大規模言語モデル(LLM)の評価における再現性を高めるには、ベンチマークスコアの不確実性を定量化する必要がある。
Kivonat
大規模言語モデルの再現可能な評価:ベンチマークスコアにおける不確実性の定量化
本論文は、大規模言語モデル(LLM)の評価における再現性の問題に取り組んでおり、ベンチマークスコアに存在する不確実性を定量化することの重要性を論じています。
LLMは、膨大なデータセットで訓練された、テキスト生成や質問応答など、様々なタスクを実行できる強力なAIシステムです。LLMの性能を評価するために、ベンチマークと呼ばれる標準化されたテストセットが広く使用されています。しかし、LLMは確率的な要素を含むため、同じ質問でも異なる回答を生成することがあり、評価結果の再現性が課題となっています。本研究は、この不確実性を定量化し、より信頼性の高いLLM評価手法を提案することを目的としています。
本研究では、OpenAIのGPT-3.5TやGPT-4o、MetaのLlama-3など、複数のLLMを対象に実験を行いました。評価には、方向推論タスクに関する2つのベンチマークデータセット(SmallとLarge)を使用しました。各LLMに対して、デフォルト設定と、温度パラメータを0に固定した設定で、複数回の実験を繰り返し、回答のばらつきを分析しました。