Core Concepts
본 연구는 의료 영상과 보고서 간의 관계를 활용하여 사전 학습을 수행하고, 이를 통해 다양한 하위 작업에서 우수한 성능을 달성하고자 한다. 특히 시각적 질문 답변(VQA) 기법을 활용하여 모델이 관심 있는 병리학적 특징에 초점을 맞출 수 있도록 하였다.
Abstract
본 연구는 의료 영상과 보고서 간의 관계를 활용한 멀티모달 사전 학습 방법을 제안한다. 기존의 사전 학습 방법들은 추가적인 전문가 주석이 필요하거나 모델이 관심 있는 병리학적 특징에 초점을 맞추지 못하는 문제가 있었다. 이를 해결하기 위해 본 연구에서는 시각적 질문 답변(VQA) 기법을 활용하여 모델이 다양한 수준의 병리학적 특징에 초점을 맞출 수 있도록 하였다.
구체적으로, 본 연구에서는 세 가지 수준의 VQA 과제를 설계하였다. 첫째, 전체 보고서 생성을 통해 보고서 형식과 작성 스타일을 학습한다. 둘째, 해부학적 영역에 대한 임상 설명 생성을 통해 해부학적 구조를 효과적으로 구분할 수 있도록 한다. 셋째, 보고서 내용을 기반으로 한 일련의 질문을 통해 미묘하지만 중요한 병리학적 시각적 특징에 초점을 맞출 수 있도록 한다.
또한 본 연구에서는 준-텍스트 특징 변환기(QFT) 모듈을 제안하여 시각 및 언어 모달리티 간의 격차를 좁혔다. QFT 모듈은 대조 학습 전략을 사용하여 시각 특징을 텍스트 도메인에 더 가까운 준-텍스트 도메인으로 변환한다. 이를 통해 모달리티 정렬을 개선하고 모델의 시각적 이해 능력을 향상시킬 수 있다.
본 연구의 실험 결과, 제안된 방법은 보고서 생성, 분류, 탐지 및 분할 등 다양한 하위 작업에서 우수한 성능을 보였다. 특히 VQA를 통해 모델이 관심 있는 병리학적 특징에 초점을 맞출 수 있었고, QFT 모듈을 통해 시각 및 언어 모달리티 간의 격차를 효과적으로 좁힐 수 있었다.
Stats
의료 영상과 보고서 데이터셋은 총 10,720개의 초음파 영상과 5,360개의 보고서로 구성되어 있다.
Quotes
"본 연구는 의료 영상과 보고서 간의 관계를 활용한 멀티모달 사전 학습 방법을 제안한다."
"VQA를 통해 모델이 관심 있는 병리학적 특징에 초점을 맞출 수 있었고, QFT 모듈을 통해 시각 및 언어 모달리티 간의 격차를 효과적으로 좁힐 수 있었다."