이 논문은 의료 영상 분류를 위한 향상된 EATFormer 모델을 제안한다. 주요 내용은 다음과 같다:
기존 Vision Transformer 모델의 한계를 극복하기 위해 진화 알고리즘 기반의 EAT 블록을 도입하였다. EAT 블록은 Feed-Forward Network (FFN), Global and Local Interaction (GLI), Multi-Scale Region Aggregation (MSRA) 모듈로 구성된다.
MSRA 모듈은 다양한 수용 영역에서 정보를 집계하여 모델의 성능을 향상시킨다. GLI 모듈은 글로벌 및 지역 정보를 효과적으로 융합한다. 또한 Modulated Deformable MSA (MD-MSA) 모듈을 도입하여 불규칙적인 위치를 동적으로 모델링한다.
제안 모델을 Chest X-ray와 Kvasir 데이터셋에 적용한 결과, 기존 모델 대비 예측 속도와 정확도가 크게 향상되었다. 특히 Chest X-ray 데이터셋에서 95.33%의 정확도를, Kvasir 데이터셋에서 94.37%의 정확도를 달성하였다.
이를 통해 제안 모델이 의료 영상 분류 분야에서 우수한 성능을 보이며, 의사와 임상 전문가들의 정확하고 효율적인 진단을 지원할 수 있음을 확인하였다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor