Die Studie präsentiert ein neuartiges Vision-Sprache-Modell namens AFLoc, das pathologische Läsionen in Röntgenbildern des Brustkorbs und Fundusbildern der Netzhaut ohne Annotationen präzise lokalisieren kann.
AFLoc verwendet einen mehrstufigen kontrastiven Lernansatz, um Bildmerkmale auf verschiedenen Ebenen (Wort-, Satz- und Berichtsebene) mit den entsprechenden Textbeschreibungen in einem gemeinsamen semantischen Raum auszurichten. Dadurch kann das Modell die vielfältigen Ausdrucksformen von Pathologien und unbekannte Pathologien ohne Abhängigkeit von Bildannotationen durch Experten erfassen.
Die Leistungsfähigkeit von AFLoc wurde auf vier unabhängigen externen Datensätzen für 11 verschiedene Brustpathologien evaluiert. Die Ergebnisse zeigen, dass AFLoc sechs führende Methoden übertrifft und in 5 Fällen sogar die menschliche Referenzleistung übertrifft. Darüber hinaus konnte die Übertragbarkeit von AFLoc auf die Lokalisierung pathologischer Läsionen in Fundusbildern der Netzhaut nachgewiesen werden, was die Vielseitigkeit und Eignung des Ansatzes für komplexe klinische Umgebungen unterstreicht.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Hao Yang,Hon... às arxiv.org 03-19-2024
https://arxiv.org/pdf/2401.02044.pdfPerguntas Mais Profundas