Core Concepts
大規模言語モデルの性能を効率的かつ公平に評価するため、最大差競争に基づく手法を提案する。この手法は、人間評価者に提示する最小限の情報的で多様なサンプルを自動的に選択し、それらに基づいて言語モデルの相対的な性能を推定する。
Abstract
本研究は、大規模言語モデル(LLM)の性能を効率的かつ公平に評価する手法を提案している。
まず、大規模な指示プールを構築し、LLMの性能を4つのシナリオ(科学知識理解、数学推論、創造的・機能的な文章作成、コード生成と説明)で評価する。
次に、最大差(MAD)競争の原理に基づき、LLMの性能を最大限に区別できる最小限の指示サンプルを自動的に選択する。これらのサンプルに対する人間評価者の選好を収集し、Elo評価システムを用いて全体的なランキングを導出する。
実験結果は、提案手法が信頼性の高い LLM ランキングを生成し、各モデルの相対的な強みと弱点を明確に示すことを示している。さらに、この手法は人的リソースを大幅に節約しつつ、有益な洞察を提供することができる。
Stats
本研究では8つの代表的なLLMを評価した。
4つのシナリオにおいて、合計840,000回のペア比較を行った。
人間評価者は13名の大学院生で構成された。
Quotes
"我々は自動的に、LLMの性能を最大限に区別できる最小限の指示サンプルを選択する。"
"提案手法は信頼性の高いLLMランキングを生成し、各モデルの相対的な強みと弱点を明確に示す。"
"この手法は人的リソースを大幅に節約しつつ、有益な洞察を提供することができる。"