Core Concepts
Ein neuer selbstüberwachter multimodaler Lernansatz, der Textberichte und Röntgenbilder kombiniert, um präzise Lokalisierung von Läsionen ohne aufwendige Positionsannotationen zu erreichen.
Abstract
Der Artikel stellt einen neuen selbstüberwachten multimodalen Lernansatz vor, der Textberichte und Röntgenbilder kombiniert, um präzise Lokalisierung von Läsionen ohne aufwendige Positionsannotationen zu erreichen.
Der Ansatz nutzt globale und lokale kontrastive Lernverfahren:
- Globales kontrastives Lernen: Abgleich globaler Merkmale von Bildern und Textberichten
- Lokales kontrastives Lernen: Abgleich von Satzebene-Merkmalen der Textberichte mit lokalen Bildmerkmalen
Im Vergleich zu bisherigen Methoden, die Wörter einzeln verwenden, nutzt der Ansatz vollständige Sätze aus den Textberichten, um die semantischen Zusammenhänge präziser zu erfassen.
Die Experimente auf mehreren Datensätzen zeigen, dass der Ansatz den aktuellen Stand der Technik bei der Läsionslokalisation übertrifft, auch für zuvor unbekannte Krankheiten. Die Methode ermöglicht eine robuste und präzise Lokalisierung verschiedener Läsionstypen allein anhand der Textbeschreibungen.
Stats
Die Intersection-over-Union (IoU)-Werte auf dem RSNA Pneumonia-Datensatz verbessern sich von 0,317 auf 0,331.
Die Dice-Werte auf dem RSNA Pneumonia-Datensatz verbessern sich von 0,465 auf 0,474.
Die durchschnittlichen IoU-Werte auf dem MS-CXR-Datensatz verbessern sich von 0,264 auf 0,328.
Die durchschnittlichen Dice-Werte auf dem MS-CXR-Datensatz verbessern sich von 0,395 auf 0,466.
Auf dem COVID-Rural-Datensatz verbessert sich der IoU-Wert von 0,137 auf 0,222 und der Dice-Wert von 0,228 auf 0,336.
Quotes
"Unser Modell übertrifft bestehende Methoden bei allen Metriken deutlich."
"Die Ergebnisse zeigen signifikante Fortschritte bei der Krankheitslokalisation, die unser Modell sowohl für bekannte als auch für unbekannte Krankheiten erzielt."
"Unsere Technik übertrifft andere Methoden konsistent bei der Lokalisierung verschiedener Läsionstypen."