Core Concepts
본 연구는 COVID-19 CT 스캔 데이터의 도메인 간 차이를 극복하기 위해 가짜 레이블을 활용한 도메인 적응 기술을 제안한다. 이를 통해 데이터 부족 문제를 해결하고 진단 정확도를 향상시킬 수 있다.
Abstract
본 연구는 COVID-19 진단을 위한 도메인 적응 기술을 제안한다.
첫 번째 단계에서는 도메인 A의 주석이 달린 데이터와 도메인 B의 주석이 달린 데이터를 활용하여 모델을 학습한다. 데이터 증강과 대조 표현 학습 기법을 적용하여 학습 효과를 높인다.
두 번째 단계에서는 첫 번째 단계에서 학습된 모델을 활용하여 도메인 B의 비주석 데이터에 대한 가짜 레이블을 생성한다. 이렇게 생성된 가짜 레이블 데이터와 원래의 주석 데이터를 합쳐 모델을 재학습하여 진단 정확도를 향상시킨다.
실험 결과, 제안 기술은 COVID-19 도메인 적응 챌린지의 검증 데이터셋에서 0.92의 Macro F1 Score를 달성하여 우수한 성능을 보였다.
Stats
본 연구에서 사용한 COV19-CT-DB 데이터셋에는 총 7,756개의 3D CT 스캔이 포함되어 있으며, 이 중 1,661개가 COVID-19 샘플이고 6,095개가 non-COVID-19 샘플이다.
이 데이터셋에는 약 2,500,000개의 이미지가 포함되어 있으며, 이 중 724,273개가 COVID-19 클래스, 1,775,727개가 non-COVID-19 클래스에 속한다.
COVID-19 도메인 적응 챌린지의 학습 데이터셋에는 239개의 주석이 달린 3D CT 스캔(COVID-19 120개, non-COVID-19 119개)과 494개의 비주석 3D CT 스캔이 포함되어 있다.
검증 데이터셋에는 178개의 3D CT 스캔(COVID-19 65개, non-COVID-19 113개)이 포함되어 있다.
Quotes
"본 연구는 COVID-19 진단을 위한 도메인 적응 기술을 제안한다. 이를 통해 데이터 부족 문제를 해결하고 진단 정확도를 향상시킬 수 있다."
"가짜 레이블을 활용한 도메인 적응 기술은 주석이 달린 데이터와 주석이 달리지 않은 데이터 간의 격차를 해소하고 모델의 일반화 성능을 높일 수 있다."