核心概念
マルチプルチョイス問題はLLMの能力を正確に測定できない可能性がある。LLMはマルチプルチョイス問題に対して順序依存性を示し、長文生成問題との間に大きな差異がある。
要約
本論文は、大規模言語モデル(LLM)の能力を評価する際のマルチプルチョイス問題(MCQ)の有効性について調査している。
まず、LLMがMCQの選択肢の順序に敏感に反応することを示した。GPT-3.5-turboやGPT-4、ChatGLM-6Bなどのモデルは、選択肢の順序を変えると、正解率に大きな差が生じることが分かった。さらに、各モデルにはそれぞれ異なる順序依存性のパターンが見られた。
次に、MCQと長文生成問題(LFGQ)の比較を行った。直接出力、トークン確率、埋め込み空間の3つの観点から分析した結果、以下のことが明らかになった:
- MCQの正解率はLFGQよりも一貫して高い。しかし、同一の質問に対するMCQとLFGQの回答には相関が低い。
- 回答の一貫性が高いからといって必ずしも正解率が高いわけではない。
- MCQはLFGQに比べて期待校正誤差が高く、過度に自信を持っている傾向がある。
- MCQとLFGQの埋め込み表現は、特に初期層で明確に分離している。
以上の結果から、MCQはLLMの能力を正確に評価できない可能性が示された。LFGQのような生成型の評価が、より適切な評価手法であると考えられる。
統計
LLMはマルチプルチョイス問題の選択肢の順序に敏感に反応し、正解率に大きな差が生じる。
MCQの正解率はLFGQよりも一貫して高いが、同一の質問に対する回答の相関は低い。
MCQはLFGQに比べて期待校正誤差が高く、過度に自信を持っている傾向がある。
引用
「LLMはマルチプルチョイス問題の選択肢の順序に敏感に反応し、正解率に大きな差が生じる」
「MCQの正解率はLFGQよりも一貫して高いが、同一の質問に対する回答の相関は低い」
「MCQはLFGQに比べて期待校正誤差が高く、過度に自信を持っている傾向がある」