이 연구에서는 고해상도 병리조직 이미지를 효과적으로 인코딩하고 자동으로 보고서를 생성하는 방법을 제안한다.
사전 학습된 비전 트랜스포머(ViT)를 사용하여 4096x4096 크기의 병리조직 이미지 패치를 인코딩한다. 이를 통해 고해상도 전체 슬라이드 이미지(WSI)의 다중 수준 표현을 얻을 수 있다.
사전 학습된 BERT 모델을 디코더로 사용하여 이미지 표현을 바탕으로 보고서를 생성한다. 이를 통해 강력한 텍스트 표현을 활용할 수 있다.
제안한 방법을 통해 이미지에 대한 캡션 생성뿐만 아니라 조직 유형 분류와 환자 성별 분류도 수행할 수 있다.
실험 결과, 제안한 모델은 조직 유형 분류에서 89.52%의 정확도와 캡션 생성 작업에서 BLEU-4 점수 0.12를 달성했다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Saurav Sengu... at arxiv.org 03-18-2024
https://arxiv.org/pdf/2312.01435.pdfDeeper Inquiries