Core Concepts
イタリア語の言語モデルの数学的推論力と言語理解力を評価するための新しいベンチマークを開発した。これらのベンチマークは、イタリアの学校システムで使用されている実際のテストに基づいており、数学と言語理解の両方を評価することができる。
Abstract
本研究では、イタリア語の言語モデルの数学的理解力と言語理解力を評価するための2つの新しいベンチマーク「Invalsi MATH」と「Invalsi ITA」を紹介している。
Invalsi MATHは、4つの異なる問題タイプ(多肢選択、真偽問題、数値回答、穴埋め)から構成されており、言語モデルの数学的推論力を評価する。Invalsi ITAは、より複雑な問題タイプ(多肢選択、二値問題、抜粋、その他)から成り、言語理解力を評価する。
これらのベンチマークは、イタリアの学校システムで使用されている実際のテストに基づいているため、学生の平均パフォーマンスと比較することができる。
9つの言語モデルを評価した結果、現在の言語モデルはこれらのベンチマークで60%程度の正解率しか得られず、数学的理解と言語理解の向上が課題であることが明らかになった。特に、真偽問題や穴埋め問題の正解率が低いことが分かった。
今後、これらのベンチマークを使って、イタリア語の言語モデルの数学的理解力と言語理解力をさらに向上させていくことが期待される。
Stats
多肢選択問題では、最も強力なモデルであるmixtralが61.76%の正解率を達成した。
真偽問題では、ほとんどのモデルが偶然レベルの正解率しか得られなかった。
数値回答問題では、mixtralが62.50%の正解率を示した。
穴埋め問題では、すべてのモデルが0%の正解率であった。