核心概念
画像認識と画像セグメンテーションを同時に学習することで、効率的で精度の高い視覚表現を獲得できる。
要約
本研究では、画像認識と画像セグメンテーションを同時に学習する新しいビジョントランスフォーマーモデルを提案している。従来のモデルでは、画像認識と画像セグメンテーションが別々の処理として扱われていた。
提案モデルの特徴は以下の3点:
固定サイズのパッチトークンではなく、可変形状のセグメントトークンを使用する。これにより、画像の構造に適応したセグメンテーションが可能になる。
トランスフォーマーブロックの間にグラフプーリングモジュールを挿入し、トークンを階層的に統合する。これにより、マルチスケールの整合性のとれたセグメンテーションが得られる。
画像識別の自己教師あり学習と同時に、セグメンテーションの良さを最大化するように学習する。これにより、監督なしでセグメンテーションを獲得できる。
提案モデルは、ImageNetとPASCAL VOCデータセットで、従来手法よりも高い認識精度とセグメンテーション精度を達成している。また、計算効率も高い。
統計
画像認識タスクでは、提案モデルはVanilla VITと比べて、同等の計算コストで3.2%高い精度を達成した。
物体セグメンテーションタスクでは、提案モデルは既存手法と比べて、領域IoUで1.8%、境界F値で5.1%高い精度を達成した。
前景セグメンテーションタスクでは、提案モデルはVanilla VITと比べて、2.1%高いIoU精度を達成した。
引用
"画像認識と画像セグメンテーションを同時に学習することで、効率的で精度の高い視覚表現を獲得できる。"
"提案モデルは、ImageNetとPASCAL VOCデータセットで、従来手法よりも高い認識精度とセグメンテーション精度を達成している。"
"提案モデルは、計算効率も高い。"