Ein neuartiger leichtgewichtiger Rahmen für die mehrstufige Anpassung und den Vergleich ermöglicht es, das CLIP-Modell für die Anomalieerkennung in medizinischen Bildern umzufunktionieren. Dieser Ansatz integriert mehrere Residuenadapter in den vortrainierten visuellen Encoder, um die visuellen Merkmale schrittweise über verschiedene Ebenen hinweg zu verbessern. Diese mehrstufige Anpassung wird durch mehrstufige, pixelweise visuelle-sprachliche Merkmalsausrichtungsverlustfunktionen geleitet, die den Fokus des Modells von der Objektsemantik in natürlichen Bildern auf die Identifizierung von Anomalien in medizinischen Bildern umstellen.
Diese Studie präsentiert einen umfassenden Benchmark zur Evaluierung verschiedener Methoden der Anomalieerkennung in medizinischen Bildern. Die Ergebnisse zeigen, dass Rekonstruktionsmethoden bei der bildbasierten Anomalieerkennung leistungsfähiger sind als selbstüberwachte Lernmethoden, insbesondere wenn es um die Erkennung lokaler Anomalien geht. Darüber hinaus zeigt die Studie, dass eine geeignete Einschränkung des Latenzraums der Rekonstruktionsmodelle deren Leistung deutlich verbessern kann.