Core Concepts
提案手法は、クエリーキー相関の豊かな構造パターンを効果的に活用し、視覚表現の学習を行う新しい自己注意メカニズムを導入する。
Abstract
本論文では、構造的自己注意(StructSA)と呼ばれる新しい自己注意メカニズムを提案している。StructSAは、クエリーキー相関の幾何学的構造を認識し、それを動的に局所コンテキストの特徴を集約するために活用する。
具体的には以下の2つのステップから成る:
構造的クエリーキー注意: クエリーキー相関マップ全体の構造パターンを畳み込み演算により検出する。
コンテキスト値の集約: 検出された構造パターンに基づいて動的にカーネル重みを生成し、局所コンテキストの値特徴を集約する。
これにより、画像の空間レイアウトや動画の動きといった豊かな構造パターンを効果的に捉えることができる。
提案手法を基盤とした構造的ビジョントランスフォーマー(StructViT)を開発し、画像分類、動画分類の各ベンチマークにおいて最先端の性能を達成している。特に、動作中心の動画分類タスクにおいて大幅な性能向上を示している。
Stats
画像分類タスクのImageNet-1Kにおいて、StructViT-Lは86.7%の精度を達成し、最先端の性能を示した。
動画分類タスクのKinetics-400において、StructViT-B-4-1は83.4%の精度を達成し、最先端の性能を示した。
動作中心の動画分類タスクのSomething-Something V2において、StructViT-B-4-1は71.5%の精度を達成し、最先端の性能を示した。
Quotes
"我々は新しい自己注意メカニズム、構造的自己注意(StructSA)を提案する。これは、注意のクエリーキー相互作用に自然に現れる豊かな相関パターンを活用するように設計されている。"
"StructSAは、クエリーキー相関の幾何学的構造を認識し、それを動的に局所コンテキストの特徴を集約するために活用する。"
"提案手法を基盤とした構造的ビジョントランスフォーマー(StructViT)は、画像分類、動画分類の各ベンチマークにおいて最先端の性能を達成している。"