本文主要包含以下內容:
介紹了X光影像醫療報告生成(MRG)任務的重要性和挑戰。指出現有數據集和算法存在局限性,需要進一步提升性能。
提出了一種新的多階段預訓練策略的MambaXray-VL大模型。第一階段採用基於自回歸生成的自監督學習,充分利用大量X光影像數據增強視覺編碼能力;第二階段進行基於影像-報告對比學習,將視覺和語言特徵對齊;第三階段進行監督微調以獲得更好的報告生成性能。
在CheXpert Plus數據集上對19種主流X光報告生成模型和16種大型語言模型進行了全面的基準測試,為後續研究提供了重要的參考。結果顯示,我們提出的MambaXray-VL模型在多個指標上取得了最佳或接近最佳的性能。
將研究範圍擴展到IU X-ray和MIMIC-CXR數據集,進行分析實驗和可視化,以加深對MambaXray-VL模型性能及其在生成X光醫療報告方面的能力的理解,提高研究結果的健壯性和普適性。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询