Dieser Artikel präsentiert einen neuartigen nullschuss-Ansatz für 3D-visuelle Verankerung (3DVG), um die Notwendigkeit umfangreicher Annotationen und vordefinierter Vokabulare zu beseitigen.
Zunächst wird ein einfacher Dialog-Ansatz mit Großsprachmodellen (LLMs) vorgestellt, bei dem LLMs durch interaktiven Dialog die Objekte in einer 3D-Szene identifizieren. Obwohl LLMs leistungsfähige menschenähnliche Fähigkeiten zum logischen Schlussfolgern zeigen, haben sie Schwierigkeiten mit viewabhängigen Beziehungen und mathematischen Berechnungen, die für 3DVG entscheidend sind.
Um diese Einschränkungen zu überwinden, entwickeln wir einen visuellen Programmierungsansatz. Dieser Ansatz generiert zunächst ein visuelles Programm mithilfe von LLMs, das aus drei Arten von Modulen besteht: viewunabhängige, viewabhängige und funktionale Module. Diese Module arbeiten zusammen, um komplexe Schlussfolgerungen und Inferenzen in 3D-Szenarien durchzuführen.
Darüber hinaus entwickeln wir ein innovatives Sprachobekt-Korrelationsmodul, um den Geltungsbereich bestehender 3D-Objektdetektoren auf offene Vokabular-Szenarien zu erweitern. Umfangreiche Experimente zeigen, dass unser nullschuss-Ansatz einige überwachte Basislinien übertreffen und einen wichtigen Schritt in Richtung effektiver 3DVG markieren kann.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zhihao Yuan,... at arxiv.org 03-26-2024
https://arxiv.org/pdf/2311.15383.pdfDeeper Inquiries