DOrA ist ein neuartiger 3D-Bildverarbeitungsrahmen, der ordnungsbewusste Referenzierung nutzt, um Zielobjekte in 3D-Punktwolkenszenen zu lokalisieren.
Der Schlüssel ist die Verwendung von Großsprachmodellen (LLMs), um aus der natürlichen Beschreibung eine Referenzreihenfolge von Ankergegenständen abzuleiten. Diese Referenzreihenfolge dient dann als Leitfaden für eine Reihe von "Object-Referring"-Blöcken, die die visuellen Merkmale der relevanten Gegenstände schrittweise verfeinern, um den Zielgegenstand effizient zu identifizieren.
Darüber hinaus führt DOrA eine Vortrainingsphase durch, um zuverlässige Referenzreihenfolgen und Anker-/Zielobjektlabels als zusätzliche Trainingsdaten zu generieren. Dies stellt sicher, dass das Modell die Identitäten und Referenzreihenfolgen der Ankerobjekte korrekt erfasst.
Experimente auf Benchmark-Datensätzen zeigen, dass DOrA im Vergleich zu anderen State-of-the-Art-Methoden für 3D-visuelle Referenzierung deutlich bessere Ergebnisse erzielt, insbesondere wenn nur begrenzte Trainingsdaten zur Verfügung stehen.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Tung-Yu Wu,S... في arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16539.pdfاستفسارات أعمق