Core Concepts
QUILT-1M 데이터셋은 다양한 온라인 소스에서 수집된 이미지로 구성되어 있지만, 이미지 품질과 구성이 매우 이질적이어서 텍스트 조건부 이미지 합성에 적합하지 않다. 이 연구에서는 이미지의 가장 일반적인 불순물(예: 화자 표시, 데스크톱 환경, 병리학 소프트웨어, 이미지 내 텍스트)을 자동으로 예측하고 의미론적 정렬 필터링을 통해 데이터셋을 정제하여 텍스트 기반 이미지 합성 성능을 크게 향상시켰다.
Abstract
이 연구는 QUILT-1M 데이터셋의 품질 문제를 해결하기 위해 모델 기반 정제 파이프라인을 제안했다.
데이터셋 샘플링 및 수동 주석:
QUILT-1M 데이터셋의 1%(6,532개) 이미지를 무작위로 선별하여 일반적인 이미지 불순물(화자 표시, 데스크톱 환경, 텍스트/로고, 화살표/주석, 품질 저하, 슬라이드 개요, 버튼/제어 요소, 다중 패널 이미지)을 수동으로 주석 처리했다.
분석 결과, 전체 이미지의 21.74%만이 이러한 불순물이 없는 것으로 나타났다.
추가로 TCGA-BRCA 데이터셋에서 2,072개의 불순물이 없는 이미지를 무작위 샘플링했다.
모델 학습:
샘플링된 이미지를 70:15:15의 비율로 학습, 검증, 테스트 세트로 분할했다.
ResNet50-D 기반의 다중 레이블 불순물 분류기를 학습했다.
테스트 세트에서 92.71%의 정확도, 97.17%의 특이도, 93.16%의 ROC AUC 성능을 달성했다.
의미론적 정제:
CONCH 모델을 사용하여 이미지-텍스트 쌍의 CLIP 점수를 계산하고, 중앙값 이상의 점수를 가진 쌍만 선별했다.
텍스트 조건부 이미지 합성:
불순물 분류기로 필터링된 데이터셋을 사용하여 Latent Diffusion 모델을 fine-tuning했다.
생성된 이미지의 FID 점수를 MIDOG++와 PLISM 데이터셋을 사용하여 평가했다.
불순물이 제거된 데이터셋으로 학습한 모델이 더 나은 이미지 품질을 보였다.
이 연구는 대규모 공개 데이터셋의 품질 문제를 해결하고 텍스트 조건부 이미지 합성 성능을 향상시키는 데 기여했다.
Stats
전체 QUILT-1M 데이터셋의 21.74%만이 일반적인 이미지 불순물이 없는 것으로 나타났다.
불순물 분류기의 테스트 세트 성능: 정확도 92.71%, 특이도 97.17%, ROC AUC 93.16%