本論文は、大規模言語モデル(LLM)の能力を評価する際のマルチプルチョイス問題(MCQ)の有効性について調査している。
まず、LLMがMCQの選択肢の順序に敏感に反応することを示した。GPT-3.5-turboやGPT-4、ChatGLM-6Bなどのモデルは、選択肢の順序を変えると、正解率に大きな差が生じることが分かった。さらに、各モデルにはそれぞれ異なる順序依存性のパターンが見られた。
次に、MCQと長文生成問題(LFGQ)の比較を行った。直接出力、トークン確率、埋め込み空間の3つの観点から分析した結果、以下のことが明らかになった:
以上の結果から、MCQはLLMの能力を正確に評価できない可能性が示された。LFGQのような生成型の評価が、より適切な評価手法であると考えられる。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Wangyue Li,L... at arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17752.pdfDeeper Inquiries