Khái niệm cốt lõi
MiKASA verbessert die Genauigkeit der Objekterkennung und das Verständnis räumlicher Beziehungen in 3D-Umgebungen.
Tóm tắt
Einleitung
3D-Visual Grounding verbindet natürliche Sprachverarbeitung und Computer Vision.
Herausforderungen: Erklärbarkeit, Objekterkennung in Punktwolken, komplexe räumliche Beziehungen.
Verwandte Arbeiten
Entwicklung von 3D-Visual Grounding-Modellen mit Graphen und Transformern.
Methode
MiKASA-Architektur: Vision, Text-Encoder, räumliches Modul, Fusion.
Datenverarbeitung und Szenenobjekt-Encoder.
Experiment
Datasets: Nr3D, Sr3D.
Implementierungsdetails und Evaluationsmetriken.
Schlussfolgerung
MiKASA übertrifft bestehende Modelle in der Genauigkeit und Erklärbarkeit.
Thống kê
Unser Modell erreicht 75,2% Genauigkeit in der Sr3D-Challenge.
MiKASA verbessert die Objekterkennungsgenauigkeit auf 70,8% mit einem selbst aufmerksamen Szenenobjektencoder.
Trích dẫn
"Unser Modell verbessert die Erklärbarkeit der Entscheidungsfindung und ermöglicht eine bessere Fehlerdiagnose."
"MiKASA übertrifft den aktuellen Stand der Technik in Bezug auf Genauigkeit und Erklärbarkeit."