In dieser Studie wurde ein vereinfachter und anpassbarer Ansatz zur Verbesserung der Genauigkeit der Tiefenschätzung unter Verwendung von Transfer Learning und einer optimierten Verlustfunktion vorgeschlagen.
Die optimierte Verlustfunktion ist eine Kombination aus gewichteten Verlusten, die Robustheit und Generalisierung verbessern: Mean Absolute Error (MAE), Edge Loss und Structural Similarity Index (SSIM). Es wurde eine Gittersuche und eine Zufallssuche verwendet, um optimierte Gewichte für die Verluste zu finden, was zu einem verbesserten Modell führte.
Es wurden mehrere Encoder-Decoder-basierte Modelle, einschließlich DenseNet121, DenseNet169, DenseNet201 und EfficientNet, für das überwachte Tiefenschätzungsmodell auf dem NYU Depth Dataset v2 untersucht. Es zeigte sich, dass das EfficientNet-Modell, das für die Klassifizierung auf ImageNet vortrainiert wurde und als Encoder verwendet wurde, mit einem einfachen Upsampling-Decoder die besten Ergebnisse in Bezug auf RSME, REL und log10 lieferte: 0,386, 0,113 und 0,049.
Es wurde auch eine qualitative Analyse durchgeführt, die zeigt, dass unser Modell Tiefenkarten erstellt, die der Bodenwahrheit sehr ähnlich sind, auch in Fällen, in denen die Bodenwahrheit fehlerhaft ist. Die Ergebnisse zeigen deutliche Verbesserungen in Bezug auf Genauigkeit und Robustheit, wobei EfficientNet die erfolgreichste Architektur ist.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Muhammad Ade... at arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07686.pdfDeeper Inquiries