本論文は、視覚変換器の新しいアーキテクチャであるスペクトル畳み込み変換器(SCT)を提案している。SCTは、ハートレー変換と畳み込み演算子を組み合わせることで、画像の局所的な情報と大域的な情報を効果的に捉えることができる。
具体的には以下のような特徴がある:
ハートレー変換を用いて大域的な情報を捉え、畳み込み演算子を用いて局所的な情報を捉える。これにより、画像の多様な特徴を効果的に抽出できる。
ハートレー変換は実数値変換であるため、複素数を扱う必要がなく、計算コストが低減できる。
深層注意層を用いて長距離の依存関係も捉えることができる。
実験の結果、SCTは既存の視覚変換器と比べて優れた性能を示し、ImageNet1Kデータセットで最高84.5%の精度を達成した。また、CIFAR-10/100、Flower、Carなどのデータセットでも優れた転移学習性能を示した。
インスタンスセグメンテーションなどの下流タスクでも良好な結果を得ている。
以上のように、SCTは画像の局所的・大域的特徴を効果的に捉えることができる新しい視覚変換器アーキテクチャであり、優れた性能を示している。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問