Core Concepts
Durch die explizite Modellierung der Beziehungen zwischen Sprache und Bildern kann die Leistung bei der medizinischen Bildanalyse deutlich verbessert werden.
Abstract
Die Studie präsentiert einen neuen Ansatz namens "Cross-Modal Conditioned Reconstruction for Language-guided Medical Image Segmentation" (RecLMIS), der die Verknüpfung von Sprache und Bildern explizit modelliert, um die Leistung bei der medizinischen Bildanalyse zu verbessern.
Kernpunkte:
Bisherige Methoden verwenden oft implizite und mehrdeutige Architekturen, um Textinformationen in die Bildanalyse einzubinden. Dies führt zu Segmentierungsergebnissen, die nicht mit den in den Texten repräsentierten Semantiken übereinstimmen.
RecLMIS führt eine bedingte Interaktion ein, um adaptiv relevante Bildregionen und Textpassagen zu identifizieren. Diese werden dann genutzt, um Bilder und Texte wechselseitig zu rekonstruieren, um die Ausrichtung von Sprache und Vision zu verbessern.
Umfangreiche Experimente zeigen, dass RecLMIS die Leistung im Vergleich zum bisherigen Spitzenreiter LViT um 3,74% mIoU auf dem MosMedData+-Datensatz verbessert. Gleichzeitig wird die Parameteranzahl um 20,2% und der Rechenaufwand um 55,5% reduziert.
Stats
RecLMIS übertrifft LViT um 3,74% mIoU auf dem MosMedData+-Datensatz.
RecLMIS erzielt im Durchschnitt eine Steigerung von 1,89% mIoU bei Kreuzdomänen-Tests auf dem QATA-CoV19-Datensatz.
RecLMIS reduziert die Parameteranzahl um 20,2% und den Rechenaufwand um 55,5% im Vergleich zu LViT.
Quotes
"Durch die explizite Modellierung der Beziehungen zwischen Sprache und Bildern kann die Leistung bei der medizinischen Bildanalyse deutlich verbessert werden."
"RecLMIS übertrifft LViT um 3,74% mIoU auf dem MosMedData+-Datensatz und erzielt im Durchschnitt eine Steigerung von 1,89% mIoU bei Kreuzdomänen-Tests auf dem QATA-CoV19-Datensatz."
"RecLMIS reduziert die Parameteranzahl um 20,2% und den Rechenaufwand um 55,5% im Vergleich zu LViT."