In dieser Arbeit präsentieren wir einen Ansatz zum Erlernen eines kategoriespezifischen 3D-Objektposenschätzers ohne Verwendung von Positionsannotationen. Anstatt manuell annotierte Bilder zu verwenden, nutzen wir diffusionsbasierte Modelle (z.B. Zero-1-to-3), um Bildmengen mit kontrollierten Positionsunterschieden zu generieren, und schlagen vor, unseren Objektposenschätzer anhand dieser Bilder zu erlernen.
Direkte Verwendung des ursprünglichen Diffusionsmodells führt zu Bildern mit verrauschten Positionen und Artefakten. Um dieses Problem zu lösen, nutzen wir zunächst einen Bildenkoder, der durch speziell entworfenes kontrastives Positionslernen trainiert wird, um unvernünftige Details zu filtern und Bildmerkmalkarten zu extrahieren. Zusätzlich schlagen wir eine neuartige Lernstrategie vor, die es dem Modell ermöglicht, Objektpositionen aus diesen generierten Bildmengen zu erlernen, ohne die Ausrichtung ihrer kanonischen Positionen zu kennen.
Die experimentellen Ergebnisse zeigen, dass unser Verfahren die Fähigkeit zur kategoriespezifischen Objektposenschätzung aus einer Einzelbildeinstellung (als Positionsdefinition) besitzt und die anderen State-of-the-Art-Methoden auf den wenig-Schuss-kategoriespezifischen Objektposenschätzung-Benchmarks deutlich übertrifft.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Fengrui Tian... ב- arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05626.pdfשאלות מעמיקות