Der Artikel befasst sich mit den kritischen Herausforderungen der Spärlichkeit und Verdeckung in der LiDAR-basierten 3D-Objekterkennung. Aktuelle Methoden verlassen sich oft auf zusätzliche Module oder spezifische Architekturentwürfe, was ihre Anwendbarkeit auf neue und sich weiterentwickelnde Architekturen einschränken kann.
Der Beitrag stellt einen vielseitigen Ansatz vor, der nahtlos in jeden bestehenden Rahmen für die 3D-Objekterkennung integriert werden kann. Das vorgestellte Verfahren, die "X-Ray Distillation mit objektvollständigen Frames", ist für überwachte und semi-überwachte Einstellungen geeignet und nutzt den zeitlichen Aspekt von Punktwolkensequenzen.
Dieser Ansatz extrahiert wichtige Informationen aus vorherigen und nachfolgenden LiDAR-Frames, um objektvollständige Frames zu erstellen, die Objekte aus mehreren Blickwinkeln darstellen und so Verdeckung und Spärlichkeit angehen. Da es nicht möglich ist, diese objektvollständigen Frames während der Online-Inferenz zu generieren, wird eine Wissens-Distillation in einem Lehrer-Schüler-Framework verwendet. Hierbei wird der starke Schüler-Modell dazu angeleitet, das Verhalten des schwächeren Lehrer-Modells, das die einfachen und informativen objektvollständigen Frames verarbeitet, nachzuahmen.
Die vorgeschlagenen Methoden übertreffen den Stand der Technik im semi-überwachten Lernen um 1-1,5 mAP und verbessern die Leistung von fünf etablierten überwachten Modellen um 1-2 mAP auf Standard-Datensätzen für autonomes Fahren, selbst bei Verwendung der Standardhyperparameter.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania