DOrA ist ein neuartiger 3D-Bildverarbeitungsrahmen, der ordnungsbewusste Referenzierung nutzt, um Zielobjekte in 3D-Punktwolkenszenen zu lokalisieren.
Der Schlüssel ist die Verwendung von Großsprachmodellen (LLMs), um aus der natürlichen Beschreibung eine Referenzreihenfolge von Ankergegenständen abzuleiten. Diese Referenzreihenfolge dient dann als Leitfaden für eine Reihe von "Object-Referring"-Blöcken, die die visuellen Merkmale der relevanten Gegenstände schrittweise verfeinern, um den Zielgegenstand effizient zu identifizieren.
Darüber hinaus führt DOrA eine Vortrainingsphase durch, um zuverlässige Referenzreihenfolgen und Anker-/Zielobjektlabels als zusätzliche Trainingsdaten zu generieren. Dies stellt sicher, dass das Modell die Identitäten und Referenzreihenfolgen der Ankerobjekte korrekt erfasst.
Experimente auf Benchmark-Datensätzen zeigen, dass DOrA im Vergleich zu anderen State-of-the-Art-Methoden für 3D-visuelle Referenzierung deutlich bessere Ergebnisse erzielt, insbesondere wenn nur begrenzte Trainingsdaten zur Verfügung stehen.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Tung-Yu Wu,S... pada arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16539.pdfPertanyaan yang Lebih Dalam