Główne pojęcia
大規模言語モデル (LLM) は従来のベンチマークテストでは高い性能を示すが、真の理解と推論能力においては限界がある。
Streszczenie
本論文は、大規模言語モデル (LLM) の真の理解力と推論能力を評価するために設計された新しいベンチマークデータセット、MMLU-SR を提案しています。
従来のベンチマークの問題点
近年、LLM は目覚ましい発展を遂げ、様々なベンチマークで優れた成績を収めています。しかし、LLM が実際に推論タスクを実行しているのか、それとも単に次のトークンを予測しているだけなのか、疑問視する声も上がっています。
MMLU-SR の特徴
MMLU-SR は、重要な用語をランダムな単語に置き換え、その定義を併記することで、LLM が記憶した用語ではなく、定義と概念を用いて推論できるかどうかを検証します。
データセットの構成
MMLU-SR は、「質問のみ」、「回答のみ」、「質問と回答」の3つのサブセットで構成されています。
- 質問のみ: 質問文中の重要な用語をランダムな単語に置き換え、定義を付与します。
- 回答のみ: 回答選択肢中の重要な用語をランダムな単語に置き換え、定義を付与します。
- 質問と回答: 質問文と回答選択肢の両方で重要な用語をランダムな単語に置き換え、定義を付与します。
評価結果
GPT-3.5/4、Gemini、Llama3 を用いた評価の結果、MMLU-SR では従来の MMLU に比べて大幅に精度が低下することが明らかになりました。これは、LLM が記憶したデータに依存していることを示唆しています。
結論
MMLU-SR は、LLM の真の推論能力と理解力を検証するための、より厳密で包括的な評価手法を提供します。このデータセットは、LLM の推論能力の限界を特定し、より堅牢で真の意味で知的なモデルの開発を促進するのに役立つでしょう。
Statystyki
MMLU-SR の「質問のみ」データセットでは、gpt-4o-mini の精度は平均で 7.91% 低下した。
MMLU-SR の「回答のみ」データセットでは、gpt-4o-mini の精度は平均で 15.05% 低下した。
MMLU-SR の「質問と回答」データセットでは、gpt-4o-mini の精度は平均で 24.12% 低下した。
Cytaty
"If LLMs are truly capable of reasoning, they should remain unaffected by the replacement of key symbols within the test set."
"A hallmark of human intelligence is the ability to handle abstract concepts and to associate them with arbitrary terms."
"Our findings indicate that while current LLMs excel on traditional benchmarks, they face substantial difficulties when key terms are replaced, highlighting the need for benchmarks like MMLU-SR to ensure robust and comprehensive evaluation of language models."