A comprehensive task, Modality-Incomplete Scene Segmentation (MISS), is studied to cover both system-level modality missing and sensor-level modality errors in multi-modal semantic segmentation. A Missing-aware Modal Switch (MMS) training strategy and a Fourier Prompt Tuning (FPT) method are proposed to address these challenges, enabling efficient and robust multi-modal perception.
Durch die Einführung einer Missing-aware Modal Switch (MMS)-Strategie und einer Fourier-Prompt-Feinabstimmung (FPT) wird die Robustheit von multimodalen Wahrnehmungssystemen gegen den Ausfall von Modalitäten auf Systemebene und Sensorebene verbessert.