Die Studie identifiziert, dass bestehende 3D-SOT-Ansätze hauptsächlich auf Erscheinungsabgleich oder Bewegungsmodellierung innerhalb nur zweier aufeinanderfolgender Frames basieren und die Eigenschaft der langfristigen kontinuierlichen Bewegung von Objekten in 3D-Räumen vernachlässigen.
Um dieses Problem anzugehen, präsentiert die Arbeit einen neuartigen Ansatz namens StreamTrack, der jeden Verfolgungsablauf als kontinuierlichen Datenstrom behandelt. Zu jedem Zeitpunkt wird nur der aktuelle Frame als Eingabe verwendet, während historische Merkmale aus einer Speicherbank abgerufen werden, um eine effiziente Nutzung sequenzieller Informationen zu ermöglichen.
Um einen effektiven Informationsaustausch zwischen Frames zu erreichen, wird ein hybrides Aufmerksamkeitsmechanismus entwickelt, der sowohl Langzeitbeziehungsmodellierung als auch lokale geometrische Merkmalsextraktion berücksichtigt. Darüber hinaus wird eine kontrastive Sequenzverbesserungsstrategie vorgeschlagen, um die Nutzung von Mehrfachrahmenmerkmalen für eine robuste Verfolgung zu verbessern.
Umfangreiche Experimente auf KITTI, nuScenes und Waymo zeigen, dass der vorgeschlagene Ansatz die aktuellen Spitzenergebnisse deutlich übertrifft.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Zhipeng Luo,... lúc arxiv.org 03-19-2024
https://arxiv.org/pdf/2303.07605.pdfYêu cầu sâu hơn