Die Kernidee von HVDistill ist es, Wissen aus einem vortrainierten 2D-Bildnetzwerk auf ein 3D-Punktwolken-Netzwerk zu übertragen, indem sowohl die Bildebene als auch die Vogelperspektive (BEV) genutzt werden.
Zunächst werden die Bildpixel in Superpixel gruppiert und die entsprechenden Punktwolken-Cluster (Superpoints) generiert. Dann wird eine kontrastive Destillation zwischen Superpixeln und Superpoints durchgeführt, um das Punktwolken-Netzwerk zu trainieren (IPV-basierte kontrastive Destillation).
Zusätzlich wird eine BEV-basierte kontrastive Destillation durchgeführt. Dafür wird zunächst eine dichte Tiefenkarte aus den Bildmerkmalen und den projizierten Punktwolken-Tiefen geschätzt. Anschließend werden die Bildmerkmale in den 3D-Raum transformiert und in die BEV-Ebene projiziert. Diese BEV-Bildmerkmale dienen dann zur Supervision der BEV-Merkmale des Punktwolken-Netzwerks.
Die Kombination der IPV- und BEV-basierten kontrastiven Destillation ermöglicht es, sowohl semantische als auch geometrische Informationen effektiv auf das Punktwolken-Netzwerk zu übertragen. Umfangreiche Experimente zeigen, dass HVDistill konsistente Verbesserungen gegenüber dem Baseline-Modell erzielt und deutlich besser abschneidet als bestehende Ansätze.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Sha Zhang,Ji... في arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11817.pdfاستفسارات أعمق