核心概念
放射線学における画像とテキストの特徴のアライメントを向上させるために、眼球注視データを活用する新しい手法を提案します。
統計資料
MIMIC-CXR [5] データセットは 377,110 枚の胸部画像とそれに対応する診断報告書を含んでいます。
CheXpert [6] データセットは 224,316 枚の胸部画像と意味ラベルを含んでいます。
引述
"Eye-gaze data can intuitively reflect the image regions radiologists focus on."
"Our model demonstrates robust performance, outperforming other state-of-the-art methods in zero-shot classification and retrieval tasks."