核心概念
의료 영상과 진단 텍스트 간 정렬을 위해 의사의 안구 추적 데이터를 활용하는 새로운 프레임워크를 제안한다.
要約
이 연구는 의료 영상과 진단 텍스트 간 정렬을 위해 의사의 안구 추적 데이터를 활용하는 새로운 프레임워크인 EGMA(Eye-gaze Guided Multi-modal Alignment)를 제안한다.
- 데이터 처리 단계:
- 의사의 음성 녹음, 텍스트 전사, 안구 추적 데이터를 동기화하여 문장 단위로 영상 관심 영역을 표현하는 주목 열지도를 생성한다.
- 세부 정렬 단계:
- 영상 패치와 텍스트 문장 간 유사도 행렬을 생성하고, 안구 추적 데이터 기반 주목 열지도를 활용하여 이를 최적화한다.
- 영상과 텍스트 간 상호 매핑 과정에서도 안구 추적 데이터를 활용하여 정렬을 강화한다.
- 실험 결과:
- 제안 모델은 제로샷 분류와 검색 작업에서 기존 최신 모델들을 능가하는 성능을 보였다.
- 적은 양의 안구 추적 데이터만으로도 모델 성능 향상이 가능함을 확인했다.
이 연구는 의료 영상-텍스트 정렬 문제에서 안구 추적 데이터의 활용 가능성을 입증하고, 이를 통해 수동 주석 의존도를 낮출 수 있는 새로운 접근법을 제시한다.
統計
의사의 안구 추적 데이터는 영상 관심 영역과 진단 텍스트 간 자연스러운 연결고리를 제공한다.
제안 모델은 안구 추적 데이터를 활용하여 영상 패치와 텍스트 문장 간 세부 정렬을 수행한다.
적은 양의 안구 추적 데이터(1-5%)만으로도 모델 성능 향상이 가능하다.
引用
"의사의 안구 추적 데이터는 영상 관심 영역과 진단 텍스트 간 자연스러운 연결고리를 제공한다."
"제안 모델은 안구 추적 데이터를 활용하여 영상 패치와 텍스트 문장 간 세부 정렬을 수행한다."
"적은 양의 안구 추적 데이터(1-5%)만으로도 모델 성능 향상이 가능하다."