이 연구는 병리학 교육 동영상에서 추출한 국소적 내러티브를 활용하여 병리학 이미지에 대한 시각적 지침 기반 질문 답변 모델을 학습하고 평가하였다.
먼저 동영상에서 강사의 마우스 커서 움직임을 추적하여 이미지 내 의미 있는 영역을 자동으로 추출하였다. 이를 통해 이미지 내 특정 영역에 대한 설명을 얻을 수 있었다.
다음으로 이 데이터를 활용하여 두 가지 유형의 질문 답변 데이터셋을 생성하였다. 첫째, 개별 이미지 캡션에 기반한 질문 답변 쌍을 생성하였다. 둘째, 전체 슬라이드 이미지에 대한 진단 정보와 근거 사실을 활용하여 추론 기반의 질문 답변 쌍을 생성하였다.
이렇게 생성된 데이터셋 QUILT-INSTRUCT를 활용하여 QUILT-LLAVA 모델을 학습하였다. QUILT-LLAVA는 단일 이미지 패치를 넘어 전체 슬라이드 이미지에 대한 진단 추론이 가능하다.
QUILT-LLAVA의 성능을 평가하기 위해 QUILT-VQA 데이터셋을 구축하였다. QUILT-VQA는 병리학 교육 동영상에서 자연스럽게 발생한 질문 답변 쌍으로 구성되어 있다. 실험 결과, QUILT-LLAVA는 기존 SOTA 모델 대비 우수한 성능을 보였다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究