Die Kernidee von HVDistill ist es, Wissen aus einem vortrainierten 2D-Bildnetzwerk auf ein 3D-Punktwolken-Netzwerk zu übertragen, indem sowohl die Bildebene als auch die Vogelperspektive (BEV) genutzt werden.
Zunächst werden die Bildpixel in Superpixel gruppiert und die entsprechenden Punktwolken-Cluster (Superpoints) generiert. Dann wird eine kontrastive Destillation zwischen Superpixeln und Superpoints durchgeführt, um das Punktwolken-Netzwerk zu trainieren (IPV-basierte kontrastive Destillation).
Zusätzlich wird eine BEV-basierte kontrastive Destillation durchgeführt. Dafür wird zunächst eine dichte Tiefenkarte aus den Bildmerkmalen und den projizierten Punktwolken-Tiefen geschätzt. Anschließend werden die Bildmerkmale in den 3D-Raum transformiert und in die BEV-Ebene projiziert. Diese BEV-Bildmerkmale dienen dann zur Supervision der BEV-Merkmale des Punktwolken-Netzwerks.
Die Kombination der IPV- und BEV-basierten kontrastiven Destillation ermöglicht es, sowohl semantische als auch geometrische Informationen effektiv auf das Punktwolken-Netzwerk zu übertragen. Umfangreiche Experimente zeigen, dass HVDistill konsistente Verbesserungen gegenüber dem Baseline-Modell erzielt und deutlich besser abschneidet als bestehende Ansätze.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Sha Zhang,Ji... lúc arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11817.pdfYêu cầu sâu hơn