Khái niệm cốt lõi
Das vorgeschlagene Modell nutzt einen neuartigen, clip-basierten DETR-Stil-Encoder-Decoder, der systematisch die Herausforderungen von komplexen Objekttransformationen, kleinen Objekten und Langzeit-Tracking adressiert. Es umfasst eine neuartige transformationsbewusste Verlustfunktion, ein multiplikatives zeitcodiertes Gedächtnis und einen ganzheitlichen Multi-Skalen-Video-Transformer für Tracking.
Tóm tắt
Die Studie präsentiert einen neuartigen, clip-basierten DETR-Stil-Encoder-Decoder-Ansatz für die Video-Objektsegmentierung (VOS), der darauf ausgelegt ist, die Herausforderungen von komplexen Objekttransformationen, kleinen Objekten und Langzeit-Tracking zu bewältigen.
Kernelemente des Ansatzes sind:
- Eine neuartige transformationsbewusste Verlustfunktion, die den Fokus der Lernphase auf Videobereiche mit signifikanten Objekttransformationen legt, um das Tracking nach komplexen Veränderungen zu verbessern.
- Ein multiplikatives zeitcodiertes Gedächtnis, das den Kontext über lange Videosequenzen hinweg effektiv propagiert.
- Ein ganzheitlicher Multi-Skalen-Video-Transformer für Tracking, der Multi-Skalen-Gedächtnis-Abgleich und -Decodierung in einem einheitlichen Framework vereint.
Der Ansatz ermöglicht eine Online-Inferenz mit langen Videos, indem diese in Clips unterteilt und der Kontext zwischen ihnen propagiert wird. Die Experimente zeigen, dass kurze Clip-Längen und längeres Gedächtnis mit gelernter Zeitcodierung wichtige Designentscheidungen für eine verbesserte Leistung sind.
Insgesamt übertrifft der Ansatz den Stand der Technik auf zwei komplexen egozentrierten Datensätzen (VISOR und VOST) deutlich, während er auf dem konventionellen VOS-Benchmark DAVIS'17 vergleichbare Ergebnisse erzielt.
Thống kê
"Während Objekte in einem Video erhebliche Transformationen durchmachen können, führt eine gleichmäßige Behandlung aller Frames bei der Bildung der Videoverlustfunktion zu suboptimalen Lösungen, da die Mehrheit der Frames relativ einfach sind und zu Redundanz über lange Zeitspannen führen, was das Tracking von Objekten nach komplexen Transformationen beeinträchtigt."
"Unser Ansatz erzielt eine Verbesserung von etwa 7% auf VISOR und etwa 1% auf VOST für alle Metriken im Vergleich zu den besten berichteten Ergebnissen."
"Insbesondere bei längeren Videos und kleinen Objekten auf VOST übertreffen wir den nächstbesten Ansatz um 7% bzw. 4%."
Trích dẫn
"Während Objekte in einem Video erhebliche Transformationen durchmachen können, führt eine gleichmäßige Behandlung aller Frames bei der Bildung der Videoverlustfunktion zu suboptimalen Lösungen, da die Mehrheit der Frames relativ einfach sind und zu Redundanz über lange Zeitspannen führen, was das Tracking von Objekten nach komplexen Transformationen beeinträchtigt."
"Unser Ansatz erzielt eine Verbesserung von etwa 7% auf VISOR und etwa 1% auf VOST für alle Metriken im Vergleich zu den besten berichteten Ergebnissen."
"Insbesondere bei längeren Videos und kleinen Objekten auf VOST übertreffen wir den nächstbesten Ansatz um 7% bzw. 4%."