이 연구는 의료 영상 생성 모델 평가를 위해 널리 사용되는 Fr´echet Inception Distance (FID) 지표에 대해 조사했다. FID는 실제 영상과 생성 영상의 특징 분포 간 Fr´echet 거리를 계산하여 생성 영상의 품질을 평가한다.
연구진은 4가지 의료 영상 데이터셋에서 16개의 StyleGAN2 모델을 학습시켰다. 이 모델들은 4가지 데이터 증강 기법(ADA, APA, DiffAugment, 없음)을 사용했다.
이후 11개의 ImageNet 또는 RadImageNet 기반 특징 추출기를 사용하여 Fr´echet 거리를 계산했다. 인간 평가를 위해 전문가들이 참여하는 Visual Turing Test (VTT)를 수행했다.
연구 결과, ImageNet 기반 특징 추출기는 일관된 모델 순위를 생성하고 인간 판단과 잘 부합했다. 특히 ImageNet 기반 SwAV 특징 추출기의 Fr´echet 거리가 전문가 평가와 유의한 상관관계를 보였다.
반면 RadImageNet 기반 특징 추출기는 불안정한 순위를 생성하고 인간 판단과 부합하지 않았다. 이는 의료 영상 기반 특징 추출기가 FID 지표 향상에 필수적이지 않으며 오히려 신뢰성을 저하시킬 수 있음을 시사한다.
데이터 증강 기법 중 DiffAugment가 가장 우수한 성능을 보였다. DiffAugment는 2개 데이터셋에서 실제 영상과 구분이 어려운 수준의 합성 영상을 생성했다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania