Core Concepts
ベンガル語自然言語推論タスクにおいて、Large Language Modelは一部の場合でトランスフォーマーモデルを凌駕するが、全体的にはまだ課題が残されている。
Abstract
本研究では、ベンガル語自然言語推論(NLI)タスクにおける大規模言語モデル(LLM)とトランスフォーマーモデル(PLM)の性能を包括的に評価した。主な結果は以下の通り:
LLMは一般にゼロショット学習の際、PLMと比べて低い性能を示す。特にベンガル語NLIタスクでその傾向が強い。LLMの出力に「ハルシネーション」と呼ばれる事実と異なる情報が含まれることも課題となっている。
LLMは英語タスクでは優れた性能を発揮するが、ベンガル語のようなリソース不足の言語では性能が低下する。LLMの言語固有の制約に関する理解を深める必要がある。
一方、わずかなサンプル(5ショット、10ショット、15ショット)を使った学習では、LLMの性能がPLMを上回る大幅な改善が見られた。LLMの潜在的な可能性を示唆する重要な発見である。
今後の課題として、LLMの出力の信頼性向上、言語固有の制約の解明、自動プロンプト最適化手法の導入などが挙げられる。本研究は、リソース不足の言語におけるLLMの適用可能性を探る上で重要な知見を提供している。
Stats
ベンガル語NLIタスクにおいて、LLMのGPT-3.5 Turboは15ショットで92.05%の正解率を達成し、PLMのBanglaBERTの82.04%を上回った。
Gemini 1.5 Proも15ショットで91.46%の正解率を示し、優れた性能を発揮した。
Quotes
"LLMは一般にゼロショット学習の際、PLMと比べて低い性能を示す。特にベンガル語NLIタスクでその傾向が強い。"
"一方、わずかなサンプル(5ショット、10ショット、15ショット)を使った学習では、LLMの性能がPLMを上回る大幅な改善が見られた。"