Core Concepts
본 연구는 의료 영상과 진단 텍스트 간의 정렬을 향상시키기 위해 방사선과 의사의 시선 추적 데이터를 활용하는 새로운 접근법을 제안한다.
Abstract
본 연구는 의료 영상과 진단 텍스트 간의 정렬 문제를 해결하기 위해 방사선과 의사의 시선 추적 데이터를 활용하는 Eye-gaze Guided Multi-modal Alignment (EGMA) 프레임워크를 제안한다.
- 시선 추적 데이터 처리:
- 방사선과 의사의 음성 녹음, 텍스트 전사, 시선 추적 데이터를 동기화하여 문장 단위로 영상 영역과 텍스트 간의 정렬을 수행한다.
- 시선 추적 기반 정렬 최적화:
- 영상 패치와 텍스트 문장 간의 유사도 행렬을 생성하고, 시선 추적 데이터를 활용하여 이를 최적화한다.
- 영상 특징과 텍스트 특징 간의 상호 매핑을 수행하며, 시선 추적 데이터를 활용하여 이를 개선한다.
- 실험 결과:
- 제안 모델은 기존 최신 모델 대비 제로샷 분류와 검색 성능에서 우수한 결과를 보였다.
- 시선 추적 데이터의 양이 적더라도 모델 성능 향상에 도움이 되는 것을 확인했다.
본 연구는 의료 영상-텍스트 정렬 문제에서 시선 추적 데이터의 활용 가능성을 보여주며, 향후 의료 영상 분석 분야에서 활용될 수 있을 것으로 기대된다.
Stats
방사선과 의사의 진단 텍스트에는 영상 내 병변 부위에 대한 정보가 포함되어 있다.
방사선과 의사의 시선 추적 데이터는 진단 과정에서 집중한 영상 영역을 나타낸다.
Quotes
"본 연구는 의료 영상과 진단 텍스트 간의 정렬을 향상시키기 위해 방사선과 의사의 시선 추적 데이터를 활용하는 새로운 접근법을 제안한다."
"제안 모델은 기존 최신 모델 대비 제로샷 분류와 검색 성능에서 우수한 결과를 보였다."
"시선 추적 데이터의 양이 적더라도 모델 성능 향상에 도움이 되는 것을 확인했다."