本研究は、大規模言語モデル(LLM)の性能を効率的かつ公平に評価する手法を提案している。
まず、大規模な指示プールを構築し、LLMの性能を4つのシナリオ(科学知識理解、数学推論、創造的・機能的な文章作成、コード生成と説明)で評価する。
次に、最大差(MAD)競争の原理に基づき、LLMの性能を最大限に区別できる最小限の指示サンプルを自動的に選択する。これらのサンプルに対する人間評価者の選好を収集し、Elo評価システムを用いて全体的なランキングを導出する。
実験結果は、提案手法が信頼性の高い LLM ランキングを生成し、各モデルの相対的な強みと弱点を明確に示すことを示している。さらに、この手法は人的リソースを大幅に節約しつつ、有益な洞察を提供することができる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問