画像のセマンティック情報を活用するSemantic Vision Transformers (sViT) は、ViTよりも優れた性能を示し、解釈可能性を向上させる。
Semantic Vision Transformers (sViT) nutzen semantische Informationen, um die Leistung von Vision Transformers (ViT) zu verbessern.