Transformation-Aware Multi-scale Video Transformer für Segmentierung und Verfolgung
Das vorgeschlagene Modell nutzt einen neuartigen, clip-basierten DETR-Stil-Encoder-Decoder, der systematisch die Herausforderungen von komplexen Objekttransformationen, kleinen Objekten und Langzeit-Tracking adressiert. Es umfasst eine neuartige transformationsbewusste Verlustfunktion, ein multiplikatives zeitcodiertes Gedächtnis und einen ganzheitlichen Multi-Skalen-Video-Transformer für Tracking.