이 연구에서는 고해상도 병리조직 이미지를 효과적으로 인코딩하고 자동으로 보고서를 생성하는 방법을 제안한다.
고해상도 병리조직 이미지를 인코딩하기 위해 사전 학습된 계층적 이미지 피라미드 트랜스포머(HIPT)를 사용한다. HIPT는 다중 스케일 비전 트랜스포머를 활용하여 이미지의 다양한 수준의 특징을 추출한다.
추출된 이미지 특징을 BERT 기반의 디코더에 입력하여 자동으로 보고서를 생성한다. BERT 디코더는 강력한 텍스트 표현을 활용하여 이미지에 대한 설명을 생성한다.
실험 결과, 제안된 방법은 병리조직 이미지 분류 정확도 89.52%와 BLEU-4 점수 0.12의 성능을 보였다. 이는 기존 CNN-RNN 기반 모델보다 우수한 성능이다.
사전 학습된 도메인 특화 언어 모델(BioBERT, BioClinicalBERT)을 사용하는 것보다 일반 BERT 모델을 사용하는 것이 더 좋은 성능을 보였다. 이는 도메인 특화 파인튜닝이 초기 가중치 초기화보다 더 중요함을 시사한다.
디코더 모델의 마지막 3개 층과 크로스 어텐션 층만 학습시키는 것이 전체 층을 학습시키는 것과 유사한 성능을 보이면서 학습 시간을 단축할 수 있었다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
핵심 통찰 요약
by Saurav Sengu... 게시일 arxiv.org 03-18-2024
https://arxiv.org/pdf/2312.01435.pdf더 깊은 질문