Core Concepts
ViTextVQAデータセットは、画像中のテキストを理解する能力を評価するための大規模で高品質なデータセットである。
Abstract
ViTextVQAデータセットは、ベトナム語テキストを含む画像16,762枚と50,342の質問回答ペアで構成されている。このデータセットは、画像中のテキストを理解する能力を評価するために特化して開発された。
データセット作成プロセスでは、16人の学生アノテーターが6週間かけて質問と回答を作成した。アノテーターには詳細なガイドラインが提供され、アノテーション品質は定期的に評価された。最終的に、トレーニング、開発、テストセットに分割された。
データセットの分析では、質問と回答の長さ、品詞タグ、固有表現タグなどの特徴を調べた。また、画像中のオブジェクトの分布も分析した。これらの分析結果は、ViTextVQAデータセットの特徴と課題を明らかにしている。
Stats
画像中の「人」は47,000回以上出現し、最も多い
「看板」と「文字」はそれぞれ43,000回、36,000回出現し、テキスト理解の重要性が示されている
質問中の「店」と「名前」は8,000回以上出現し、画像中の店舗名や物体名に関心が高いことがわかる
回答中の「薬」「電」「ファム・ゴック・チェン」などの固有表現も見られ、回答の多様性が示されている
Quotes
"ViTextVQAデータセットは、画像中のテキストを理解する能力を評価するための大規模で高品質なデータセットである。"
"データセット作成プロセスでは、16人の学生アノテーターが6週間かけて質問と回答を作成した。"
"データセットの分析では、質問と回答の長さ、品詞タグ、固有表現タグなどの特徴を調べた。"