Der Artikel stellt eine neue tiefe Encoder-Decoder-Architektur namens OFMPNet vor, die entwickelt wurde, um drei miteinander verbundene Aufgaben für das Bewegungsvorhersageproblem zu lösen:
Das Modell nutzt eine Sequenz von Vogelperspektiven-Straßenbildern, eine Belegungskarte und den vorherigen Bewegungsfluss als Eingabe. Es verwendet verschiedene Architekturvarianten, darunter Swin-Transformer, Aufmerksamkeitsmechanismen und LSTM-Einheiten, um die Merkmale effektiv zu extrahieren. Außerdem führen die Autoren einen neuartigen zeitgewichteten Bewegungsfluss-Verlust ein, der die Genauigkeit der Flussvorhersage verbessert.
Das OFMPNet-Modell erzielt state-of-the-art-Ergebnisse auf dem Waymo Occupancy and Flow Prediction Benchmark mit einer Soft-IoU von 50,2% und einer AUC von 76,9% für die flussbasierte Belegungsvorhersage.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Youshaa Murh... lúc arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02263.pdfYêu cầu sâu hơn