Die Studie befasst sich mit der Herausforderung der Modality-Incomplete Scene Segmentation (MISS), die sowohl Ausfälle auf Systemebene (d.h. fehlende Modalitäten) als auch Sensorebene (z.B. verschwommene oder falsch ausgerichtete Bilder) umfasst.
Um die Abhängigkeit von dominanten Modalitäten zu verringern, wird eine Missing-aware Modal Switch (MMS)-Strategie eingeführt, bei der die An- oder Abwesenheit jeder Modalität während des Trainings durch zufällige Bitfolgen gesteuert wird. Im Gegensatz zu früheren Ansätzen, die einen festen Anteil fehlender Modalitäten verwenden, ermöglicht MMS eine effizientere Exploration aller möglichen Fehlszenarien.
Darüber hinaus wird ein neuartiger Ansatz namens Fourier-Prompt-Feinabstimmung (FPT) vorgestellt, der globale spektrale Informationen in eine begrenzte Anzahl von lernbaren Prompts integriert. Dieser Ansatz nutzt die Eigenschaften der Fourier-Transformation, um robuste Prompt-Tokens zu erzeugen, die sowohl räumliche als auch spektrale Informationen enthalten und so die Leistung in Szenarien mit fehlenden Modalitäten verbessern.
Umfangreiche Experimente auf den Datensätzen DeLiVER und Cityscapes zeigen, dass unser FPT-Modell, das mit der MMS-Strategie trainiert wurde, eine Verbesserung von 5,84 Prozentpunkten bei der mittleren Intersection-over-Union (mIoU) gegenüber dem besten parametersparenden Basismodell in Szenarien mit fehlenden Modalitäten erzielt. Darüber hinaus übertrifft unser Ansatz die Referenzmethoden in allen Fällen von Sensorausfällen um etwa 2 Prozentpunkte mIoU.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Ruiping Liu,... às arxiv.org 04-12-2024
https://arxiv.org/pdf/2401.16923.pdfPerguntas Mais Profundas