Rotationspositionseinbettung für Vision Transformer: Umfassende Analyse und Anwendung in Bilderkennungsaufgaben
Die Rotationspositionseinbettung (RoPE) ist eine effektive Methode zur Verbesserung der Leistung von Vision Transformern, insbesondere bei Extrapolation auf hohe Bildauflösungen. Die Studie zeigt, dass 2D-Varianten von RoPE die Leistung von ViT und Swin Transformer in Klassifikations-, Detektions- und Segmentierungsaufgaben deutlich verbessern können.