Core Concepts
병리학 교육 동영상에서 추출한 국소적 내러티브를 활용하여 병리학 이미지에 대한 시각적 지침 기반 질문 답변 모델을 학습하고 평가한다.
Abstract
이 연구는 병리학 교육 동영상에서 추출한 국소적 내러티브를 활용하여 병리학 이미지에 대한 시각적 지침 기반 질문 답변 모델을 학습하고 평가하였다.
먼저 동영상에서 강사의 마우스 커서 움직임을 추적하여 이미지 내 의미 있는 영역을 자동으로 추출하였다. 이를 통해 이미지 내 특정 영역에 대한 설명을 얻을 수 있었다.
다음으로 이 데이터를 활용하여 두 가지 유형의 질문 답변 데이터셋을 생성하였다. 첫째, 개별 이미지 캡션에 기반한 질문 답변 쌍을 생성하였다. 둘째, 전체 슬라이드 이미지에 대한 진단 정보와 근거 사실을 활용하여 추론 기반의 질문 답변 쌍을 생성하였다.
이렇게 생성된 데이터셋 QUILT-INSTRUCT를 활용하여 QUILT-LLAVA 모델을 학습하였다. QUILT-LLAVA는 단일 이미지 패치를 넘어 전체 슬라이드 이미지에 대한 진단 추론이 가능하다.
QUILT-LLAVA의 성능을 평가하기 위해 QUILT-VQA 데이터셋을 구축하였다. QUILT-VQA는 병리학 교육 동영상에서 자연스럽게 발생한 질문 답변 쌍으로 구성되어 있다. 실험 결과, QUILT-LLAVA는 기존 SOTA 모델 대비 우수한 성능을 보였다.
Stats
병리학 교육 동영상에서 추출한 162,566개의 이미지-캡션 쌍
이 중 114,343개의 쌍을 선별하여 QUILT-INSTRUCT 데이터셋 구축
QUILT-INSTRUCT에는 107,131개의 질문-답변 쌍이 포함
Quotes
"병리학에서 기가픽셀 수준의 전체 슬라이드 이미지(WSI)를 분석하려면 고도의 이해력이 필요합니다. 병리학자들은 일반적으로 WSI를 전체적으로 분석하여 다양한 WSI 패치에서 증거를 종합합니다."
"현재 병리학 다중 모달 모델은 단일 이미지 패치를 효과적으로 분석할 수 있지만, 그 패치를 넘어서 다음 단계를 결정하는 능력이 부족합니다."