Core Concepts
長さの違いを調整することで、自動評価メトリックAlpacaEvalの信頼性と堅牢性を高めることができる。
Abstract
本研究では、自動評価メトリックAlpacaEvalの長さバイアスを簡単に除去する回帰分析ベースのアプローチを提案している。
AlpacaEvalは、言語モデルの出力の品質を自動的に評価するメトリックであるが、出力の長さに大きく依存するという問題がある。本研究では、出力の長さの違いを調整することで、AlpacaEvalの信頼性と堅牢性を高めることができることを示している。
具体的には、出力の長さ、モデルの識別、課題の難易度の3つの要素を含む一般化線形モデルを使って、AlpacaEvalの予測値を推定する。そして、出力の長さの違いを0に設定した場合の予測値を、長さを制御したAlpacaEvalの勝率として算出する。
この長さを制御したAlpacaEvalは、長さに対する感度が大幅に低下し、Chatbot Arenaとの相関も0.98と非常に高くなった。また、長さを操作した攻撃に対しても頑健であり、解釈可能性も維持されている。
本手法は、自動評価メトリックの偏りを簡単に除去できる一般的なアプローチであり、他の自動評価メトリックにも適用できると考えられる。
Stats
長さを制御したAlpacaEvalの勝率は、長さを制御しない場合に比べて、GPT-4 1106プレビューモデルで22.9%から41.9%に、Claudeモデル2.1で64.3%から51.6%に変化した。
長さを制御したAlpacaEvalは、Chatbot Arenaとの相関係数が0.94から0.98に上昇した。
Quotes
"長さを制御したAlpacaEvalは、長さに対する感度が大幅に低下し、Chatbot Arenaとの相関も0.98と非常に高くなった。"
"本手法は、自動評価メトリックの偏りを簡単に除去できる一般的なアプローチであり、他の自動評価メトリックにも適用できると考えられる。"