Core Concepts
Large language models demonstrate impressive knowledge abilities, but their generalization across domains and tasks remains a challenge.
Abstract
KGQuiz is a benchmark to evaluate LLMs' knowledge generalization abilities.
Tasks include true-or-false, multiple-choice QA, blank filling, factual editing, and open-ended generation.
LLMs perform well in simple tasks but struggle with complex reasoning and domain-specific facts.
Different models excel in different tasks and knowledge domains.
Semantic Match metric provides nuanced evaluation compared to exact match.
Stats
大規模言語モデル(LLM)は、知識能力に優れているが、異なるドメインやタスクでの一般化が課題となっている。
KGQuizは、LLMの知識一般化能力を評価するためのベンチマークである。
タスクには、真偽判定、多肢選択QA、空欄補完、事実編集、オープンエンド生成などが含まれている。
LLMは単純なタスクではうまく機能するが、複雑な推論や特定のドメイン固有の事実に苦労している。
異なるモデルが異なるタスクや知識領域で優れた成績を収めている。