Core Concepts
SAG-ViTは、マルチスケールな特徴表現を効率的に統合することで、従来のビジョントランスフォーマー(ViT)が抱えていた問題を解決し、画像分類のパフォーマンスを向上させる新しいフレームワークである。
Abstract
SAG-ViT: スケールアウェアな高忠実度パッチングアプローチとグラフアテンションを用いたビジョントランスフォーマー
Shravan Venkatraman, Jaskaran Singh Walia, Joe Dhanith P R. SAG-ViT: A Scale-Aware, High-Fidelity Patching Approach with Graph Attention for Vision Transformers. arXiv preprint arXiv:2411.09420v1 [cs.CV], 2024.
本研究は、画像分類におけるビジョントランスフォーマー(ViT)の性能向上を目指し、マルチスケールな特徴表現を効率的に統合する新しいフレームワーク、SAG-ViTを提案する。