Core Concepts
大規模言語モデルにおける尤度バイアスの存在と影響を調査し、その緩和方法を提案する。
Abstract
大規模言語モデル(LLM)は自然言語生成タスクの評価に広く使用されているが、尤度は文の信憑性を測定するため、単語の順序や文構造などの表面的な違いによって変動する可能性がある。このため、LLMを評価に使用すると尤度バイアスが生じる可能性があり、高い尤度を持つ文を過大評価し、低い尤度を持つ文を過小評価する可能性がある。本論文では、LLMベースの評価者における尤度バイアスの存在と影響を調査し、そのバイアスを緩和する方法を提案しています。実験結果は、提案された方法が成功裏にバイアスを緩和し、評価パフォーマンスも向上させたことを示しています。
Stats
尤度バイアスはSpearman's rank correlation coefficient ρで計算されます。
評価基準ごとにBiasScoreが記録されています。
例: GPT-3.5 のRelevance基準で0.43, Llama2-13B のFluency基準で0.28
Quotes
"Large Language Models (LLMs) are widely used to evaluate natural language generation tasks as automated metrics."
"In this paper, we introduce likelihood bias, where LLM-based evaluators overrate high-likelihood sentences and underrate low-likelihood ones compared to human scores."
"Our method utilizes highly biased instances as few-shot examples for in-context learning."