Die Studie untersucht, wie Informationen aus Sprachmodellen wie BERT genutzt werden können, um die Leistung von monokularen Tiefenschätzungssystemen zu verbessern.
Die Autoren zeigen zunächst, dass BERT-Sprachembeddings implizite Informationen über die wahrscheinliche Tiefe verschiedener Objekte enthalten. Sie entwickeln ein einfaches Modell, um diese Tiefenverzerrung aus den Sprachembeddings zu extrahieren.
Dieses Tiefenvorhersagemodell wird dann in ein bestehendes monokulares Tiefenschätzungssystem (AdaBins-B1) integriert. Die Ergebnisse zeigen, dass durch die Verwendung der sprachbasierten Tiefenhinweise die Leistung des Tiefenschätzungssystems im Vergleich zur Baseline und zu Kontrollmethoden verbessert werden kann.
Die Autoren diskutieren, dass die Verwendung von Sprachmodellen eine einfache und zugängliche Möglichkeit darstellt, die Leistung monokularer Tiefenschätzung zu verbessern. Zukünftige Arbeiten sollen die Extraktion von Tiefenverzerrungen aus Sprachmodellen weiter verbessern.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Dylan Auty,K... às arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.15551.pdfPerguntas Mais Profundas