核心概念
PadChest-GR 是一個新穎的雙語胸部 X 光數據集,專為訓練和評估基於圖像的放射學報告生成模型而設計,其特點是包含所有臨床相關發現的全面句子級邊界框註釋。
摘要
簡介
本文介紹了一個名為 PadChest-GR 的新型雙語胸部 X 光數據集,該數據集旨在訓練和評估基於圖像的放射學報告生成 (GRRG) 模型。GRRG 模型的目標是從臨床影像中生成包含個別發現位置的放射學報告。PadChest-GR 數據集是從 PadChest 數據集衍生而來,並透過人工標記了胸部 X 光影像中所有臨床相關發現的句子級邊界框,為訓練 GRRG 模型提供了寶貴的資源。
方法
PadChest-GR 的構建過程如下:
- 從 PadChest 中選取一個子集,其中包含正面投影的影像,並排除了兒科患者和標記為次優的影像。
- 使用 Microsoft Azure OpenAI 服務中的 GPT-4 模型,對報告進行處理,提取單一發現句子,將其從西班牙語翻譯成英語,並將其與現有的 PadChest 發現和位置標籤連結起來,並對發現進展進行分類。
- 一組 14 位放射科醫師審查並使用邊界框對每個影像中的發現進行人工標記,首先剔除影像品質、報告或發現清單有問題的影像,然後為每個發現標記邊界框。
結果
PadChest-GR 是一個公開的雙語數據集,包含 4,555 個具有基於圖像報告的胸部 X 光影像(3,099 個異常和 1,456 個正常),每個影像都包含描述個別存在(陽性)和不存在(陰性)發現的完整句子清單,以英語和西班牙語呈現。PadChest-GR 總共包含 7,037 個陽性發現句子和 3,422 個陰性發現句子。每個陽性發現句子都與由不同讀者標記的最多兩組獨立邊界框相關聯,並具有發現類型、位置和進展的分類標籤。
結論
PadChest-GR 是第一個專為訓練 GRRG 模型而設計的人工標記數據集,用於理解和解釋放射影像和生成的文本。透過包含所有臨床相關發現的詳細位置和全面註釋,它為開發和評估基於胸部 X 光影像的 GRRG 模型提供了寶貴的資源。
統計資料
PadChest-GR 數據集包含 4,555 個胸部 X 光影像,其中 3,099 個異常,1,456 個正常。
數據集中共有 7,037 個陽性發現句子和 3,422 個陰性發現句子。
84.4% 包含陰性發現的報告只有一個陰性發現句子。
11.7% 的陽性發現沒有使用邊界框進行定位。
數據集包含 24 個主要的發現類別,以及其他未分類的發現。
引述
"To the best of our knowledge, PadChest-GR is the first manually curated dataset designed to train GRRG models for understanding and interpreting radiological images and generated text."
"By including detailed localization and comprehensive annotations of all clinically relevant findings, it provides a valuable resource for developing and evaluating GRRG models from CXR images."