Keskeiset käsitteet
Ein mehrstufiges Vision-Sprache-Modell, das pathologische Läsionen in medizinischen Bildern ohne Annotationen präzise lokalisieren kann.
Tiivistelmä
Die Studie präsentiert ein neuartiges Vision-Sprache-Modell namens AFLoc, das pathologische Läsionen in Röntgenbildern des Brustkorbs und Fundusbildern der Netzhaut ohne Annotationen präzise lokalisieren kann.
AFLoc verwendet einen mehrstufigen kontrastiven Lernansatz, um Bildmerkmale auf verschiedenen Ebenen (Wort-, Satz- und Berichtsebene) mit den entsprechenden Textbeschreibungen in einem gemeinsamen semantischen Raum auszurichten. Dadurch kann das Modell die vielfältigen Ausdrucksformen von Pathologien und unbekannte Pathologien ohne Abhängigkeit von Bildannotationen durch Experten erfassen.
Die Leistungsfähigkeit von AFLoc wurde auf vier unabhängigen externen Datensätzen für 11 verschiedene Brustpathologien evaluiert. Die Ergebnisse zeigen, dass AFLoc sechs führende Methoden übertrifft und in 5 Fällen sogar die menschliche Referenzleistung übertrifft. Darüber hinaus konnte die Übertragbarkeit von AFLoc auf die Lokalisierung pathologischer Läsionen in Fundusbildern der Netzhaut nachgewiesen werden, was die Vielseitigkeit und Eignung des Ansatzes für komplexe klinische Umgebungen unterstreicht.
Tilastot
AFLoc erzielte einen durchschnittlichen IoU-Wert von 0,342 (95% KI: 0,333, 0,351) bei der Lokalisierung von Pneumonie, was deutlich besser ist als die Vergleichsmethoden GLoRIA (0,278; 95% KI: 0,270, 0,286), BioViL (0,250; 95% KI: 0,232, 0,246) und MedKLIP (0,317; 95% KI: 0,310, 0,325).
Bei der Lokalisierung verschiedener kardiopulmonaler radiologischer Befunde auf dem MS-CXR-Datensatz erzielte AFLoc einen IoU-Wert von 0,324 (95% KI: 0,298, 0,350), was eine Verbesserung von über 6% gegenüber GLoRIA (0,269; 95% KI: 0,242, 0,295), BioViL (0,258; 95% KI: 0,232, 0,285) und MedKLIP (0,264; 95% KI: 0,240, 0,287) darstellt.
Auf dem COVID Rural-Datensatz erzielte AFLoc einen IoU-Wert von 0,212 (95% KI: 0,186, 0,234) und einen CNR-Wert von 1,061 (95% KI: 0,948, 1,175), was deutlich besser ist als die Vergleichsmethoden.
Lainaukset
"AFLoc kann besser als die Vergleichsmethoden mit einfachen oder detaillierten Textbeschreibungen umgehen und die pathologischen Regionen in Bildern präzise lokalisieren."
"Die Ergebnisse zeigen, dass AFLoc in 5 von 10 Pathologien sogar die menschliche Referenzleistung übertrifft."
"Die Übertragbarkeit von AFLoc auf die Lokalisierung pathologischer Läsionen in Fundusbildern der Netzhaut unterstreicht die Vielseitigkeit und Eignung des Ansatzes für komplexe klinische Umgebungen."