본 연구는 안과 영상 이해, 진단 분석, 인구통계 추출을 위한 대규모 다중 모달 데이터셋 LMOD를 소개한다. LMOD는 광학 단층 촬영(OCT), 주사 레이저 안저 촬영(SLO), 안구 사진, 수술 장면, 컬러 안저 사진 등 5가지 안과 영상 유형을 포함하며, 총 21,993장의 영상과 다양한 주석 정보를 제공한다.
이 데이터셋을 활용하여 13개의 최신 대규모 비전-언어 모델의 성능을 체계적으로 평가하였다. 평가 결과, 이들 모델은 안과 영상 이해, 진단 분석, 인구통계 추출 등에서 여전히 많은 한계를 보였다. 특히 공간 추론 능력, 진단 분석 능력, 도메인 외 질문 처리, 생체 지표 처리 등에서 취약점이 드러났다. 또한 일부 모델은 과도한 자신감으로 인해 부정확한 답변을 제공하는 문제도 있었다.
이러한 결과는 안과 영역에 특화된 모델 개발의 필요성을 보여준다. 전문가 지식의 활용, 도메인 특화 fine-tuning, 불확실성 처리 등이 중요할 것으로 보인다. 또한 환자 프라이버시 보호를 위한 안전장치 마련도 필요할 것으로 판단된다.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Zhenyue Qin,... às arxiv.org 10-03-2024
https://arxiv.org/pdf/2410.01620.pdfPerguntas Mais Profundas