Die Studie identifiziert, dass bestehende 3D-SOT-Ansätze hauptsächlich auf Erscheinungsabgleich oder Bewegungsmodellierung innerhalb nur zweier aufeinanderfolgender Frames basieren und die Eigenschaft der langfristigen kontinuierlichen Bewegung von Objekten in 3D-Räumen vernachlässigen.
Um dieses Problem anzugehen, präsentiert die Arbeit einen neuartigen Ansatz namens StreamTrack, der jeden Verfolgungsablauf als kontinuierlichen Datenstrom behandelt. Zu jedem Zeitpunkt wird nur der aktuelle Frame als Eingabe verwendet, während historische Merkmale aus einer Speicherbank abgerufen werden, um eine effiziente Nutzung sequenzieller Informationen zu ermöglichen.
Um einen effektiven Informationsaustausch zwischen Frames zu erreichen, wird ein hybrides Aufmerksamkeitsmechanismus entwickelt, der sowohl Langzeitbeziehungsmodellierung als auch lokale geometrische Merkmalsextraktion berücksichtigt. Darüber hinaus wird eine kontrastive Sequenzverbesserungsstrategie vorgeschlagen, um die Nutzung von Mehrfachrahmenmerkmalen für eine robuste Verfolgung zu verbessern.
Umfangreiche Experimente auf KITTI, nuScenes und Waymo zeigen, dass der vorgeschlagene Ansatz die aktuellen Spitzenergebnisse deutlich übertrifft.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문