핵심 개념
의료 영상 생성 모델 평가를 위해 ImageNet 기반 특징 추출기가 RadImageNet 기반 특징 추출기보다 일관성 있고 사람의 판단과 더 잘 부합한다는 것을 보여줌.
초록
이 연구는 의료 영상 생성 모델 평가를 위해 널리 사용되는 Fr´echet Inception Distance (FID) 지표에 대해 조사했다. FID는 실제 영상과 생성 영상의 특징 분포 간 Fr´echet 거리를 측정하는데, 일반적으로 ImageNet 기반 특징 추출기를 사용한다.
연구진은 4가지 의료 영상 데이터셋과 4가지 데이터 증강 기법을 사용해 16개의 StyleGAN2 모델을 학습했다. 이 모델들의 성능을 11개의 ImageNet 또는 RadImageNet 기반 특징 추출기로 평가하고, 전문가 평가와 비교했다.
연구 결과, ImageNet 기반 특징 추출기는 일관된 모델 순위를 생성하고 전문가 평가와 잘 부합했다. 특히 ImageNet 기반 SwAV 특징 추출기의 FD가 전문가 평가와 유의한 상관관계를 보였다. 반면 RadImageNet 기반 특징 추출기는 불안정한 순위를 생성하고 전문가 평가와 부합하지 않았다.
이 연구는 의료 영상 기반 특징 추출기가 FID를 개선하지 않으며, 오히려 신뢰성을 저하시킬 수 있다는 점을 보여준다. 이는 의료 영상 생성 모델 평가 시 의료 영상 기반 특징 추출기 사용에 대한 우려를 제기한다.
통계
의료 영상 생성 모델 평가 시 ImageNet 기반 특징 추출기가 RadImageNet 기반 특징 추출기보다 일관성 있고 전문가 평가와 잘 부합한다.
ImageNet 기반 SwAV 특징 추출기의 FD가 전문가 평가와 유의한 상관관계를 보였다.
DiffAugment 데이터 증강 기법이 가장 우수한 성능을 보였다.
인용구
"의료 영상 기반 특징 추출기가 FID를 개선하지 않으며, 오히려 신뢰성을 저하시킬 수 있다."
"이는 의료 영상 생성 모델 평가 시 의료 영상 기반 특징 추출기 사용에 대한 우려를 제기한다."