이 연구는 의료 영상 생성 모델 평가를 위해 ImageNet 기반 특징 추출기와 RadImageNet 기반 특징 추출기의 성능을 비교했다.
4가지 의료 영상 데이터셋과 4가지 데이터 증강 기법을 사용하여 16개의 StyleGAN2 네트워크를 평가했다. 11개의 ImageNet 또는 RadImageNet 기반 특징 추출기를 사용하여 Fr´echet 거리(FD)를 계산했다.
인간 평가를 통한 시각적 튜링 테스트 결과, ImageNet 기반 특징 추출기가 인간의 판단과 일관된 모델 순위를 생성했다. 특히 ImageNet 기반 SwAV 특징 추출기에서 계산한 FD가 전문가 평가와 유의미한 상관관계를 보였다.
반면 RadImageNet 기반 특징 추출기는 불안정하고 인간 판단과 일치하지 않는 순위를 생성했다.
이 연구 결과는 의료 영상 기반 특징 추출기가 FD를 inherently 향상시키지 않으며, 오히려 신뢰성을 저하시킬 수 있다는 점을 보여준다. 의료 영상 생성 모델 벤치마킹에 사용되는 모든 FD에 대한 종합적인 평가와 공개가 필요하다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究