大規模言語モデルの性能を効率的かつ公平に評価するため、最大差競争に基づく手法を提案する。この手法は、人間評価者に提示する最小限の情報的で多様なサンプルを自動的に選択し、それらに基づいて言語モデルの相対的な性能を推定する。
長文脈言語モデルの性能は、単純な情報検索能力以外の行動を評価する必要があり、文脈長の増加に伴って大幅に低下する。
FairPairは、同一の人物に基づいて生成された対になった文章を比較することで、言語モデルの微妙な偏りを評価する手法である。
Ada-LEvalは、言語モデルの長文理解能力を評価するための長さ適応型ベンチマークである。TSort課題とBestAnswer課題を通じて、言語モデルの長文理解と推論能力を詳細に評価する。
ジェイルブレイクの評価には、安全保障違反、情報性、相対的真実性の3つの指標が重要である。これらの指標を組み合わせた評価手法は、従来の手法よりも優れた性能を示す。
長さの違いを調整することで、自動評価メトリックAlpacaEvalの信頼性と堅牢性を高めることができる。
LLMの応答におけるエラーを検出するための新しいベンチマーク「ReaLMistake」を開発した。このベンチマークは、LLMによって生成された応答に含まれる客観的で現実的で多様なエラーを収集することを目的としている。
大規模言語モデルの指示理解能力を、言語化子の操作を通じて系統的に評価する。自然な指示、中立的な指示、不自然な指示に分類し、モデルの性能を比較することで、指示理解能力の限界を明らかにする。
言語モデルの多様な機能を包括的に評価するベンチマークは膨大な計算コストを伴うが、その効率性については十分な議論がなされていない。本研究では、信頼性を損なわずに計算コストを削減する「効率的ベンチマーキング」の問題に取り組む。
本研究では、任意の言語の新約聖書翻訳を使用して、言語モデル評価に適したデータセットを自動的に構築する新しい手法を提案する。