核心概念
Aktuelle sprachgeführte Tiefenschätzungsmethoden zeigen eine starke Verzerrung gegenüber Szenenbeschreibungen und verschlechtern sich bei der Verwendung von detaillierten, objektbezogenen räumlichen Informationen.
摘要
Die Studie untersucht den Einfluss von Sprache auf die Tiefenschätzung. Dabei werden folgende Erkenntnisse gewonnen:
Bestehende sprachgeführte Methoden funktionieren am besten mit Szenenbeschreibungen auf hoher Ebene, wie "ein Foto von einem Schlafzimmer", verschlechtern sich aber, wenn detailliertere Informationen über räumliche Beziehungen zwischen Objekten hinzugefügt werden.
Die Leistung der Modelle sinkt deutlich, wenn sie mit Verteilungsverschiebungen und Objektverdeckungen konfrontiert werden, im Vergleich zu rein visionsbasierten Methoden.
Es werden Sätze generiert, die niedrigstufige 3D-Raumbeziehungen beschreiben, um die Leistung der Modelle unter verschiedenen Bedingungen zu testen.
Die Analyse deutet darauf hin, dass die zugrunde liegenden Sprachmodelle Schwierigkeiten haben, diese detaillierten räumlichen Informationen zu verstehen und zu nutzen.
Insgesamt zeigt die Studie, dass aktuelle sprachgeführte Tiefenschätzungsmethoden zwar vielversprechend sind, aber noch Herausforderungen bei der Robustheit und Generalisierung aufweisen, die bei der praktischen Anwendung berücksichtigt werden müssen.
統計資料
Eine Lampe ist näher als die Jalousien.
Ein Buch ist vor den Regalen.
Eine Taschentuchbox ist näher als eine Tasche.
Ein Laufband ist hinter einer Taschentuchbox.
引述
"Aktuelle sprachgeführte Tiefenschätzungsmethoden funktionieren optimal nur mit Szenenbeschreibungen auf hoher Ebene und verschlechtern sich paradoxerweise, wenn zusätzliches Wissen (sowohl auf hoher als auch auf niedriger Ebene) hinzugefügt wird."
"Mit zunehmender Verteilungsverschiebung werden diese Methoden weniger robust im Vergleich zu rein visionsbasierten Methoden."