Core Concepts
Durch den Einsatz von Multi-Modell-Großsprachmodellen kann die Analyse von 3D-medizinischen Bildern, wie CT- und MRT-Aufnahmen, deutlich verbessert werden.
Abstract
Die Studie präsentiert einen leistungsfähigen Ansatz zur Analyse von 3D-medizinischen Bildern unter Verwendung von Multi-Modell-Großsprachmodellen (MLLMs).
Es wird ein großer 3D-Datensatz, M3D-Data, mit 120.000 Bild-Text-Paaren und 662.000 Anweisungs-Antwort-Paaren für verschiedene medizinische Aufgaben wie Bild-Text-Retrieval, Berichtgenerierung, visuelle Fragestellung, Positionierung und Segmentierung erstellt.
Das vorgestellte Modell M3D-LaMed ist ein vielseitiges MLLM, das direkt mit 3D-Bildern umgehen und verschiedene Aufgaben wie Bild-Text-Retrieval, Berichtgenerierung, visuelle Fragestellung, Positionierung und Segmentierung bewältigen kann.
Für die umfassende Bewertung des Modells wird ein neuer 3D-Multi-Modell-Benchmark, M3D-Bench, mit 8 Aufgaben eingeführt.
Die Experimente zeigen, dass M3D-LaMed die Leistung bestehender Lösungen in der 3D-medizinischen Bildanalyse übertrifft.
Stats
Es gibt 120.092 3D-Bild-Text-Paare in M3D-Cap.
M3D-VQA enthält 96.170 3D-Bilder und 509.755 Frage-Antwort-Paare.
M3D-RefSeg und M3D-Seg enthalten insgesamt 5.982 3D-Bilder und 149.196 zugehörige Texte.
Quotes
"Medizinische Bildanalyse ist für die klinische Diagnose und Behandlung unerlässlich und wird zunehmend durch Multi-Modell-Großsprachmodelle (MLLMs) unterstützt."
"Bisherige Forschung konzentrierte sich hauptsächlich auf 2D-Medizinbilder und ließ 3D-Bilder mit ihren reicheren räumlichen Informationen weitgehend unberücksichtigt."