Core Concepts
Nested-TNTは、ビジョントランスフォーマーの概念を拡張し、画像をより細かい粒度で処理することで、従来のモデルよりも高い画像分類精度を達成する。
Abstract
本研究では、Nested-TNTと呼ばれる新しいビジョントランスフォーマーモデルを提案している。Nested-TNTは、Transformer in Transformer (TNT)モデルの概念を基に、さらに階層的な多頭注意メカニズムを導入することで、画像の詳細な特徴と全体的な特徴を同時に捉えることができる。
具体的には、まず入力画像をビジュアルセンテンスに分割し、次にそれをさらにビジュアルワードに細分化する。内部トランスフォーマーブロックでビジュアルワード間の関係を学習し、外部トランスフォーマーブロックでビジュアルセンテンス間の関係を学習する。さらに、隣接するトランスフォーマーブロック間の注意メカニズムを直接接続することで、各注意ヘッドが補完的な情報に注目するようにする。
実験の結果、Nested-TNTはCIFAR10、CIFAR100、Flowers102の各データセットにおいて、従来のViTやTNTよりも高い分類精度を達成することが示された。これは、Nested-TNTが画像の詳細な特徴と全体的な特徴を効果的に捉えられるためだと考えられる。一方で、処理速度とパラメータ数の面では課題も残されている。今後は、アーキテクチャの簡略化や最適化、さらなる前学習の追加などによる改善が期待される。
Stats
Nested-TNTは、ViTに比べて2.25%、TNTに比べて1.1%高い精度をCIFAR10で達成した。
Flowers102では、ViTに比べて2.78%、TNTに比べて0.25%高い精度を達成した。
Quotes
"Nested-TNTは、ビジュアルセンテンスをさらにビジュアルワードに細分化することで、画像の詳細な特徴を捉えることができる。"
"Nested-TNTは、隣接するトランスフォーマーブロック間の注意メカニズムを直接接続することで、各注意ヘッドが補完的な情報に注目するようになる。"