Die Rotationspositionseinbettung (RoPE) ist eine effektive Methode zur Verbesserung der Leistung von Vision Transformern, insbesondere bei Extrapolation auf hohe Bildauflösungen. Die Studie zeigt, dass 2D-Varianten von RoPE die Leistung von ViT und Swin Transformer in Klassifikations-, Detektions- und Segmentierungsaufgaben deutlich verbessern können.
Ein transformerbasiertes tiefes Homographie-Schätzungsnetzwerk, das die geometrische Konsistenz von lokal abgestimmten Merkmalspaaren für eine schnelle und lernbare Neuordnung von Kandidatenbildern nutzt.