Die Studie untersucht, wie Informationen aus Sprachmodellen wie BERT genutzt werden können, um die Leistung von monokularen Tiefenschätzungssystemen zu verbessern.
Die Autoren zeigen zunächst, dass BERT-Sprachembeddings implizite Informationen über die wahrscheinliche Tiefe verschiedener Objekte enthalten. Sie entwickeln ein einfaches Modell, um diese Tiefenverzerrung aus den Sprachembeddings zu extrahieren.
Dieses Tiefenvorhersagemodell wird dann in ein bestehendes monokulares Tiefenschätzungssystem (AdaBins-B1) integriert. Die Ergebnisse zeigen, dass durch die Verwendung der sprachbasierten Tiefenhinweise die Leistung des Tiefenschätzungssystems im Vergleich zur Baseline und zu Kontrollmethoden verbessert werden kann.
Die Autoren diskutieren, dass die Verwendung von Sprachmodellen eine einfache und zugängliche Möglichkeit darstellt, die Leistung monokularer Tiefenschätzung zu verbessern. Zukünftige Arbeiten sollen die Extraktion von Tiefenverzerrungen aus Sprachmodellen weiter verbessern.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Dylan Auty,K... alle arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.15551.pdfDomande più approfondite