Kernkonzepte
Systematische Skalierung des 3D Vision-Sprachlernens in Innenräumen zur Bewältigung von Herausforderungen.
Zusammenfassung
SCENEVERSE: Erstes millionenfaches 3D Vision-Sprachdatensatz
Herausforderungen: Komplexität von 3D-Szenen, Mangel an Daten, fehlendes Lernrahmenwerk
Lösung: GPS-Pre-Training für Szenen, State-of-the-Art-Leistung
Potenzial: Zero-Shot-Transferexperimente, Zukunftsaussichten
Statistiken
SCENEVERSE umfasst 68K 3D-Szenen und 2,5M Szenen-Sprachpaare.
GPS erreicht Spitzenleistungen auf bestehenden 3D-Visual-Grounding-Benchmarks.
Zitate
"3D Vision-Sprachgrundierung ist ein Eckpfeiler in der Entwicklung von verkörperten Agenten."
"SCENEVERSE und GPS zeigen ihre Wirksamkeit in Zero-Shot-Transferexperimenten."