Core Concepts
Durch den Einsatz von Pseudo-Labels mit hoher Zuversicht können Modelle für die COVID-19-Erkennung aus CT-Scans auch auf neue Datendistributionen übertragen werden, ohne viele zusätzlich annotierte Daten zu benötigen.
Abstract
In dieser Arbeit wird ein Ansatz zur COVID-19-Erkennung aus CT-Scans vorgestellt, der für zwei Herausforderungen des 4. COV19D-Wettbewerbs entwickelt wurde.
Für die erste Herausforderung wurden 3D ResNet- und Swin Transformer-Modelle trainiert, um aus über 1.000 CT-Scans des COV19-CT-DB-Datensatzes die Anwesenheit von COVID-19 zu erkennen. Die besten Einzelmodelle erreichten dabei einen mittleren F1-Score von 92,55% bzw. 90,76%. Durch Ensemblierung der Modelle konnte der Wert auf 93,39% gesteigert werden.
Für die zweite Herausforderung zur Domänenanpassung wurde der Datensatz um weitere 4.979 CT-Scans erweitert, von denen 494 nicht annotiert waren. Hier wurden die nicht-annotierten Scans zunächst mit einem Ensemble-Modell aus ResNet und Swin Transformer pseudo-annotiert, wobei nur Vorhersagen mit einer Wahrscheinlichkeit über 0,7 verwendet wurden. Diese Pseudo-Labels wurden dann zum Finetuning der Modelle genutzt. Dadurch konnte der mittlere F1-Score auf 92,15% gesteigert werden.
Die Ergebnisse zeigen, dass durch den Einsatz von Pseudo-Labels mit hoher Zuversicht eine gute Leistung bei der COVID-19-Erkennung auch auf neuen Datendistributionen erzielt werden kann, ohne viele zusätzlich annotierte Daten zu benötigen.
Stats
Die Datensätze für die beiden Herausforderungen umfassen insgesamt 8.086 CT-Scans. Für die erste Herausforderung stehen 1.684 Scans für Training und Validierung zur Verfügung, für die zweite Herausforderung 912 Scans, davon 494 ohne Annotation.
Quotes
"Durch den Einsatz von Pseudo-Labels mit hoher Zuversicht können Modelle für die COVID-19-Erkennung aus CT-Scans auch auf neue Datendistributionen übertragen werden, ohne viele zusätzlich annotierte Daten zu benötigen."