Die Studie untersucht, wie Informationen aus Sprachmodellen wie BERT genutzt werden können, um die Leistung von monokularen Tiefenschätzungssystemen zu verbessern.
Die Autoren zeigen zunächst, dass BERT-Sprachembeddings implizite Informationen über die wahrscheinliche Tiefe verschiedener Objekte enthalten. Sie entwickeln ein einfaches Modell, um diese Tiefenverzerrung aus den Sprachembeddings zu extrahieren.
Dieses Tiefenvorhersagemodell wird dann in ein bestehendes monokulares Tiefenschätzungssystem (AdaBins-B1) integriert. Die Ergebnisse zeigen, dass durch die Verwendung der sprachbasierten Tiefenhinweise die Leistung des Tiefenschätzungssystems im Vergleich zur Baseline und zu Kontrollmethoden verbessert werden kann.
Die Autoren diskutieren, dass die Verwendung von Sprachmodellen eine einfache und zugängliche Möglichkeit darstellt, die Leistung monokularer Tiefenschätzung zu verbessern. Zukünftige Arbeiten sollen die Extraktion von Tiefenverzerrungen aus Sprachmodellen weiter verbessern.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Dylan Auty,K... um arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.15551.pdfTiefere Fragen