Core Concepts
의료 영상과 보고서 간의 복잡한 관계를 효과적으로 포착하기 위해 교차 주의 메커니즘을 활용하여 유사성 표현을 생성하고, 이를 통해 영상-텍스트 정렬을 수행함으로써 의료 영상 제로샷 분류 성능을 향상시킨다.
Abstract
이 논문은 의료 영상과 보고서 간의 복잡한 관계를 효과적으로 포착하기 위한 새로운 접근법인 CARZero를 제안한다.
먼저, 교차 주의 메커니즘을 활용하여 영상과 보고서의 특징을 처리하고 유사성 표현(SimR)을 생성한다. 이 SimR은 의료 의미 맥락의 복잡한 관계를 더 잘 반영한다. 이후 선형 투영을 통해 이 SimR을 유사성 행렬로 변환하고, InfoNCE 손실 함수를 사용하여 최적화한다.
또한, 의료 보고서의 진단 표현이 매우 전문적이고 복잡하기 때문에 수동으로 프롬프트를 설계하는 것이 어려운 문제를 해결하기 위해, 대규모 언어 모델을 활용하여 훈련 및 추론 단계에서 프롬프트를 자동으로 정렬한다.
실험 결과, CARZero는 5개의 공식 다중 레이블 흉부 X선 데이터셋에서 최신 기술 수준을 능가하는 성능을 보였다. 특히 희귀 질병이 많은 PadChest 데이터셋에서 뛰어난 성과를 달성했다. 이는 CARZero가 의료 영상과 보고서 간의 복잡한 관계를 효과적으로 포착할 수 있음을 보여준다.
Stats
의료 영상과 보고서 간의 관계는 자연 영상과 텍스트에 비해 훨씬 복잡하다. 예를 들어 방사선과 의사들은 단일 보고서에서 다양한 시각적 단서를 바탕으로 여러 가지 소견, 질병 및 위치를 설명한다.
기존 방법들은 주로 코사인 유사도를 사용하여 정렬하지만, 이는 의료 영상과 보고서 간의 복잡한 관계를 충분히 포착하지 못할 수 있다.
Quotes
"의료 영상과 보고서 간의 관계는 자연 영상과 텍스트에 비해 훨씬 복잡하다."
"방사선과 의사들은 단일 보고서에서 다양한 시각적 단서를 바탕으로 여러 가지 소견, 질병 및 위치를 설명한다."
"기존 방법들은 주로 코사인 유사도를 사용하여 정렬하지만, 이는 의료 영상과 보고서 간의 복잡한 관계를 충분히 포착하지 못할 수 있다."