Core Concepts
LocCaは、画像キャプショニングタスクを通じて位置情報を学習することで、位置依存の視覚理解タスクにおいて優れた性能を発揮する。
Abstract
本論文では、LocCaと呼ばれる新しい視覚プリトレーニング手法を提案している。LocCaは、標準的な画像キャプショニングタスクに加えて、位置情報を含む2つの追加タスク(参照表現生成、位置付けされたキャプショニング)を同時に学習する。これにより、LocCaは画像の全体的な理解と同時に、物体の位置や領域に関する詳細な理解も獲得することができる。
実験の結果、LocCaは参照表現理解やオブジェクト検出などの位置依存タスクにおいて大幅な性能向上を示した一方で、画像分類やVQAなどの全体的な理解タスクでも同等の性能を維持することができた。さらに、大規模言語モデルとの統合により、様々な視覚言語タスクで優れた結果を示した。
このように、LocCaは位置情報を効果的に学習することで、視覚理解の幅広い側面を捉えることができる強力なモデルであることが示された。今後は、セグメンテーションタスクの導入などによりさらなる性能向上が期待される。
Stats
画像キャプショニングタスクでは、CIDEr scoreが127.1を達成した。
参照表現理解タスクのRefCOCO valデータセットでAccuracy@0.5が89.70を記録した。
オブジェクト検出タスクのCOCOデータセットでmAPが64.98に達した。
Quotes
"LocCaは、画像の全体的な理解と同時に、物体の位置や領域に関する詳細な理解も獲得することができる。"
"LocCaは位置情報を効果的に学習することで、視覚理解の幅広い側面を捉えることができる強力なモデルである。"