Основні поняття
MECFormer는 다중 작업 전체 슬라이드 이미지 분류를 위해 전문가 협의 네트워크(ECN)와 Transformer 기반 아키텍처를 활용하여 단일 모델로 여러 작업을 효과적으로 처리합니다.
Анотація
MECFormer: 전문가 협의 네트워크를 활용한 다중 작업 전체 슬라이드 이미지 분류
본 연구에서는 단일 모델로 다양한 전체 슬라이드 이미지(WSI) 분류 작업을 수행할 수 있는 Transformer 기반 모델인 MECFormer를 제안합니다.
MECFormer는 시각적 인코더, 언어 디코더, 전문가 협의 네트워크(ECN)로 구성됩니다.
WSI 전처리: 입력 WSI에서 조직 영역을 분할하고 패치들을 추출하여 off-the-shelf 사전 학습된 특징 추출기(CTransPath 또는 UNI)를 통해 패치 특징을 추출합니다.
ECN: 여러 전문가의 지식을 결합하여 입력 패치 임베딩을 가장 적합한 모델 공간으로 투영합니다. 각 전문가는 특정 작업에 대한 지식을 획득하도록 설계되었으며, 라우터는 작업 표시자를 기 guidance 하에 여러 전문가의 지식을 효과적으로 수집하고 통합합니다.
시각적 인코더: 패치 특징 간의 관계를 효율적이고 효과적으로 탐색하기 위해 Nyström Attention 메커니즘을 사용하여 패치 특징을 인코딩합니다.
언어 디코더: 인코더에서 생성된 텍스트 및 시각적 임베딩을 정렬하고 자기 회귀 디코딩을 수행하여 진단 용어를 예측합니다.