核心概念
本論文では、空間的および特徴量的な冗長性を解消するための新しいマクロ設計とマイクロ設計を提案し、それらを組み合わせたSHViTモデルを紹介する。SHViTは、さまざまなデバイスでの高速推論と高性能を実現している。
要約
本論文では、ビジョントランスフォーマー(ViT)の効率化に向けた取り組みについて述べている。
まず、マクロ設計の分析から、従来のViTモデルでは初期ステージでのトークン数が多く、メモリアクセスコストが高いことを明らかにした。そこで、16x16のパッチ分割と3ステージ構造を採用することで、空間的な冗長性を削減し、高速化を実現している。
次に、マイクロ設計の分析から、マルチヘッドセルフアテンション(MHSA)層には特徴量の冗長性が存在することを示した。そこで、単一ヘッドのセルフアテンション(SHSA)を提案し、冗長性を排除しつつ、局所情報と大域情報を並列に処理することで、高精度化を図っている。
これらの設計原則に基づき、SHViTモデルを構築した。SHViTは、ImageNetや物体検出・インスタンスセグメンテーションなどのタスクで、高速性と高精度を両立している。特に、モバイルデバイスでの高速推論性能が優れている。
統計
画像サイズ224×224の場合、SHViT-S1は33,489 images/sのGPUスループットと1,111 images/sのCPUスループットを達成し、MobileNetV3-Smallに比べて5.4%高精度である。
SHViT-S3は20,522 images/sのGPUスループットと731 images/sのCPUスループットを持ち、FasterNet-T1に比べて1.2%高精度である。
SHViT-S4は256×256の解像度で、14,283 images/sのGPUスループットと509 images/sのCPUスループットを持ち、EfficientNet-B1に比べて2.9倍/3.3倍高速である。
引用
"我々の提案するマクロ設計は、効率的なアテンション手法やシンプルな演算よりも、速度-精度トレードオフに大きな影響を与える。"
"単一ヘッドアテンション(SHSA)は、マルチヘッド冗長性を本質的に排除し、同時に局所情報と大域情報を並列に組み合わせることで精度を向上させる。"