DOrA ist ein neuartiger 3D-Bildverarbeitungsrahmen, der ordnungsbewusste Referenzierung nutzt, um Zielobjekte in 3D-Punktwolkenszenen zu lokalisieren.
Der Schlüssel ist die Verwendung von Großsprachmodellen (LLMs), um aus der natürlichen Beschreibung eine Referenzreihenfolge von Ankergegenständen abzuleiten. Diese Referenzreihenfolge dient dann als Leitfaden für eine Reihe von "Object-Referring"-Blöcken, die die visuellen Merkmale der relevanten Gegenstände schrittweise verfeinern, um den Zielgegenstand effizient zu identifizieren.
Darüber hinaus führt DOrA eine Vortrainingsphase durch, um zuverlässige Referenzreihenfolgen und Anker-/Zielobjektlabels als zusätzliche Trainingsdaten zu generieren. Dies stellt sicher, dass das Modell die Identitäten und Referenzreihenfolgen der Ankerobjekte korrekt erfasst.
Experimente auf Benchmark-Datensätzen zeigen, dass DOrA im Vergleich zu anderen State-of-the-Art-Methoden für 3D-visuelle Referenzierung deutlich bessere Ergebnisse erzielt, insbesondere wenn nur begrenzte Trainingsdaten zur Verfügung stehen.
翻譯成其他語言
從原文內容
arxiv.org
深入探究