Core Concepts
Die Studie analysiert die Leistungsfähigkeit verschiedener erklärbarer KI-Methoden (XAI) bei der Erklärung des inneren Funktionsweise des Vision-Language-Modells MedCLIP. Sie schlägt eine einfache und effektive Methode vor, um die Schwächen dieser Methoden zu überwinden und ein umfassendes Verständnis der Funktionsweise von MedCLIP zu ermöglichen.
Abstract
Die Studie untersucht die Erklärbarkeit des Vision-Language-Modells MedCLIP, das für die Klassifizierung von Röntgenbildern des Brustkorbs entwickelt wurde. Dazu werden verschiedene etablierte XAI-Methoden wie Gradientenrückführung, Okklusionsanalyse, Integrierte Gradienten und Grad-Shapley auf MedCLIP angewendet.
Die Autoren stellen fest, dass diese Methoden zwar Salienz-Karten erzeugen können, diese jedoch oft irreführend sind und keine aussagekräftigen Einblicke in die Funktionsweise des Modells liefern. Insbesondere zeigen die Karten eine hohe Fehlerrate und heben oft Bildregionen außerhalb des Körpers als wichtig hervor, was nicht mit der medizinischen Diagnostik übereinstimmt.
Um diese Einschränkungen zu überwinden, schlagen die Autoren einen neuen Ansatz vor. Dabei werden die XAI-Methoden auf die Bildembeddings des Modells angewendet und anschließend mit den Textembeddings kombiniert. Dadurch können die Wechselwirkungen zwischen Bild- und Textinformationen berücksichtigt werden, was zu aussagekräftigeren Erklärungen führt.
Die Ergebnisse zeigen, dass der vorgeschlagene Ansatz in der Lage ist, die Funktionsweise von MedCLIP präzise zu erklären. Die generierten Aktivierungskarten konzentrieren sich auf die relevanten Bildregionen und veranschaulichen, wie sich der Fokus des Modells je nach Textinput ändert. Dieser Ansatz bietet somit ein flexibles Framework, um die Erklärbarkeit verschiedener Vision-Language-Modelle zu verbessern.
Stats
Die Studie verwendet den MIMIC-CXR-Datensatz, der etwa 377.110 Röntgenbilder der Brust mit zugehörigen Befundberichten enthält.
Quotes
"Unsere Methode steht im Gegensatz zu herkömmlichen XAI-Methoden, indem sie Fehlalarme vermeidet und die wichtigsten Bildbereiche genau hervorhebt."
"Die hervorgehobenen Pixelpositionen stimmen eng mit den etablierten klinischen Diagnoseverfahren für die angegebene Pathologie überein."