Der Artikel stellt eine neue tiefe Encoder-Decoder-Architektur namens OFMPNet vor, die entwickelt wurde, um drei miteinander verbundene Aufgaben für das Bewegungsvorhersageproblem zu lösen:
Das Modell nutzt eine Sequenz von Vogelperspektiven-Straßenbildern, eine Belegungskarte und den vorherigen Bewegungsfluss als Eingabe. Es verwendet verschiedene Architekturvarianten, darunter Swin-Transformer, Aufmerksamkeitsmechanismen und LSTM-Einheiten, um die Merkmale effektiv zu extrahieren. Außerdem führen die Autoren einen neuartigen zeitgewichteten Bewegungsfluss-Verlust ein, der die Genauigkeit der Flussvorhersage verbessert.
Das OFMPNet-Modell erzielt state-of-the-art-Ergebnisse auf dem Waymo Occupancy and Flow Prediction Benchmark mit einer Soft-IoU von 50,2% und einer AUC von 76,9% für die flussbasierte Belegungsvorhersage.
翻譯成其他語言
從原文內容
arxiv.org
深入探究