Die Studie präsentiert FreeZe, einen neuartigen Ansatz zur trainingsfreien 6D-Posenschätzung unbekannter Objekte. FreeZe nutzt die Stärken von vortrainierten geometrischen und visuellen Grundlagenmodellen, ohne auf aufwendig generierte, objektspezifische Trainingsdaten angewiesen zu sein.
Zunächst extrahiert FreeZe geometrische Merkmale aus der 3D-Punktwolke des Objektmodells mithilfe des GeDi-Encoders und visuelle Merkmale aus Renderings des Objektmodells mithilfe des DINOv2-Encoders. Diese Merkmale werden dann fusioniert, um diskriminative 3D-Punktbeschreibungen zu erzeugen. Anschließend wird eine RANSAC-basierte 3D-Registrierung verwendet, um die 6D-Pose des Objekts zu schätzen. Für geometrisch symmetrische Objekte wird zusätzlich ein neuartiger symmetriebasierter Verfeinerungsschritt eingesetzt, der auf den visuellen Merkmalen aufbaut.
FreeZe wird umfassend auf den sieben Kerndatensätzen des BOP-Benchmarks evaluiert, die über 100 Objekte und 20.000 Bilder in verschiedensten Szenarien umfassen. FreeZe übertrifft dabei konsistent alle bisherigen Spitzenreiter, einschließlich Methoden, die auf umfangreichen synthetischen Trainingsdaten basieren.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Andrea Caraf... ב- arxiv.org 04-04-2024
https://arxiv.org/pdf/2312.00947.pdfשאלות מעמיקות