Core Concepts
多言語基盤モデルの評価において、SeaEvalは言語理解、文化理解、論理推論の能力を包括的に検証する。
Abstract
SeaEvalは多言語基盤モデルの評価を行うためのベンチマークであり、28のデータセットを含む。新しい文化理解とクロスリンガル一貫性の評価用データも提供。研究結果から、多言語基盤モデルが直面する4つの主要な課題が明らかになった。
- 言語理解能力への感度
- ラベル配置に関する露出バイアス
- 同義である多言語質問への一貫性不足
- 不均衡な多言語能力
SeaEvalはより汎用性のある意味表現と強化された多言語コンテキスト化の必要性を強調しており、これらの取り組みが基盤モデルをさらに掘り下げることを促進することを期待している。
Stats
多くのモデルは同義である質問に対して異なる回答を示す。
ラベル配置に関する露出バイアスが依然として存在する。
多くのモデルは異なる言語で同じ事実ベース質問に対して一貫した回答を与えない。
多言語トレーニングされたモデルは「バランスの取れた多言語」能力に達していない。
Quotes
"Many models exhibit varied behavior when given paraphrased instructions."
"Most models give inconsistent answers when the same fact-based questions are asked in different languages."
"Our contributions offer fresh insights into multilingual foundation models and their evaluations."