본 연구는 안과 영상 이해, 진단 분석, 인구통계 추출을 위한 대규모 다중 모달 데이터셋 LMOD를 소개한다. LMOD는 광학 단층 촬영(OCT), 주사 레이저 안저 촬영(SLO), 안구 사진, 수술 장면, 컬러 안저 사진 등 5가지 안과 영상 유형을 포함하며, 총 21,993장의 영상과 다양한 주석 정보를 제공한다.
이 데이터셋을 활용하여 13개의 최신 대규모 비전-언어 모델의 성능을 체계적으로 평가하였다. 평가 결과, 이들 모델은 안과 영상 이해, 진단 분석, 인구통계 추출 등에서 여전히 많은 한계를 보였다. 특히 공간 추론 능력, 진단 분석 능력, 도메인 외 질문 처리, 생체 지표 처리 등에서 취약점이 드러났다. 또한 일부 모델은 과도한 자신감으로 인해 부정확한 답변을 제공하는 문제도 있었다.
이러한 결과는 안과 영역에 특화된 모델 개발의 필요성을 보여준다. 전문가 지식의 활용, 도메인 특화 fine-tuning, 불확실성 처리 등이 중요할 것으로 보인다. 또한 환자 프라이버시 보호를 위한 안전장치 마련도 필요할 것으로 판단된다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問