核心概念
グラフ畳み込み射影とトーキングヘッドを活用したグラフベースのビジョントランスフォーマー(GvT)は、小規模データセットからスクラッチで学習できる優れた性能を発揮する。
摘要
本論文は、グラフ畳み込み射影とトーキングヘッドを活用したグラフベースのビジョントランスフォーマー(GvT)を提案している。GvTは、小規模データセットからスクラッチで学習できる優れた性能を発揮する。
主な特徴は以下の通り:
- グラフ畳み込み射影により、トークン間の空間的な関係性を学習し、局所的な特徴を捉えることができる。
- トーキングヘッドにより、注意機構の低ランク問題を解決し、表現力を高めている。
- グラフプーリングにより、セマンティック情報をより効果的に集約できる。
実験では、ClipArt、CIFAR-100、Oxford-IIIT Pet、Sketch-Subset、Chest X-ray、COVID-CTなどの小規模データセットで評価を行い、従来のCNNやビジョントランスフォーマーを上回る性能を示した。特に、Chest X-rayとCOVID-CTの医療画像分類タスクでも優れた結果を得ている。
統計資料
ClipArtデータセットの平均カテゴリ画像数は97枚である。
CIFAR-100データセットの訓練データは50,000枚、テストデータは10,000枚である。
Oxford-IIIT Petデータセットの訓練データは3,700枚、テストデータは3,700枚である。
Sketch-Subsetデータセットの訓練データは1,997枚、テストデータは866枚である。
Chest X-rayデータセットの訓練データは3,300枚、テストデータは300枚である。
COVID-CTデータセットの訓練データは560枚、テストデータは186枚である。