スパイラルMLP は、従来のトークンミキシングアプローチを置き換えるスパイラルFCレイヤーを導入する新しいアーキテクチャである。スパイラルFCレイヤーは、スパイラル状のオフセットを持つ変形可能な畳み込みレイヤーとして設計されており、局所的および大域的な特徴統合を可能にする。SpiralMLPは、ImageNet-1k、COCO、ADE20Kなどのベンチマークで、Transformers、CNNs、他のMLPsと同等の高性能を達成している。
大規模なビジョンモデルが常に必要であるかどうかについて、スケーリングとS2アプローチを通じて議論し、小さなモデルも同等以上の性能を発揮できる可能性を示唆。
深層学習アーキテクチャを活用した大規模ビジョンモデルは、生体認証の最先端技術を前進させているが、学習データの要求量が極めて高く、異なるドメイン間で一般化する難しさ、および解釈性/説明性の欠如が共通して報告されている。本論文では、これらの弱点に同時に対処する初めての認識フレームワーク/戦略を紹介している。