Das vorgeschlagene Modell MCSAM nutzt einen sorgfältig initialisierten Speicherbank, um krankheitsbezogene Darstellungen und Vorwissen für verschiedene Modalitäten zu lernen, und verwendet einen Prozess des Speicherabrufs basierend auf Kreuzaufmerksamkeit zusammen mit einem kreuzmodalen semantischen Ausrichtungsmodul (SAM), um konsistentes kreuzmodales Vorwissen abzurufen und eine feingranulare Merkmalskonsolidierung durchzuführen.
Eine Methode zur automatischen Erstellung von Berichten für Lungenzytologiebilder, die einen CNN-Bildklassifikator und mehrere Transformer-basierte Textdecoder kombiniert, um eine hohe Genauigkeit bei der Klassifizierung und Berichterstattung zu erreichen.
Durch Feinabstimmung eines vortrainierten Großsprachmodells mittels Instruktionen können dessen Fähigkeiten zur Verarbeitung und Generierung von Röntgenaufnahmen der Brust sowie zugehörigen Textberichten deutlich verbessert werden.
Eine Methode zur Verwendung leistungsfähiger, vortrainierter Transformer-Modelle für die automatische Erstellung von Berichten speziell für die Histopathologie mit einem End-to-End-Trainingsmechanismus.