本研究介紹了LMOD,一個用於評估大型視覺語言模型在眼科影像理解和分析方面性能的綜合基準。LMOD包含了涵蓋多種眼科影像類型的21,993張影像,並提供了對解剖結構、診斷分析和人口統計信息的註釋。
研究團隊對13種最先進的大型視覺語言模型進行了系統評估,發現它們在理解眼科影像方面存在重大局限性:
在解剖結構識別方面,模型的整體F1得分僅為0.2189,存在明顯的空間推理和上下文理解能力不足。
在疾病診斷分析方面,大多數模型在黃斑孔分期和青光眼檢測上的表現接近隨機水平,顯示專業知識的缺乏。
在人口統計信息提取方面,模型的準確率低於隨機水平,同時存在對敏感信息過度自信的問題。
這些發現突出了需要針對性的域內適應和專業知識融合,以彌補現有大型視覺語言模型在眼科應用中的不足。未來的研究應該關注提高模型在空間推理、診斷分析和處理域外查詢方面的能力,並確保在使用敏感信息時能夠適當地評估自身的局限性。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Zhenyue Qin,... lúc arxiv.org 10-03-2024
https://arxiv.org/pdf/2410.01620.pdfYêu cầu sâu hơn