Die Autoren schlagen zwei neue Verlustfunktionen vor, um die Konsistenz über verschiedene Ansichten hinweg bei der selbstüberwachten monokularen Tiefenschätzung zu verbessern: Depth Feature Alignment (DFA) Loss und Voxel Density Alignment (VDA) Loss. Diese Verlustfunktionen sind robuster gegenüber Herausforderungen wie Beleuchtungsschwankungen, Verdeckungen und bewegte Objekte im Vergleich zu herkömmlichen Ansätzen.
METER, eine neuartige leichtgewichtige Vision-Transformer-Architektur, kann auf eingebetteten Geräten mit Hardwarebeschränkungen genaue und schnelle Tiefenschätzungen liefern.
Die vorgeschlagene adaptive Fusionsmethode (AFNet) kombiniert die Vorteile von Einzelansicht- und Mehrfachansicht-Tiefenschätzung, um robuste und genaue Tiefenschätzung in autonomen Fahrsystemen zu erreichen.