結合先進的視覺和語言模型,如大型語言和視覺助手(LLaVA)和聊天式生成式預訓練變換器(ChatGPT),提出了一種新的深度學習框架,通過聯合檢測、分類和定位感興趣區域來轉錄糖尿病足潰瘍影像。
本文探討使用預期效用(EU)作為評估人工智慧輔助的排除裝置在乳房攝影篩檢中的效用的替代指標,以解決敏感性和特異性指標在回顧性模擬研究中的局限性。
提出一種全面的方法,通過精心設計的架構修改將 SAM 從 2D 轉移到 3D,以支持可提示的醫療影像分割,同時保留大部分預訓練參數以實現高效微調。
現有的大型視覺語言模型在理解和分析眼科影像方面存在重大局限性,需要針對性的改進和專業知識的融合。
本研究提出了一種創新的方法,利用2D CNN從3D MRI影像中提取體積特徵表示,並採用注意力機制來學習每個切片在決策過程中的重要性,從而生成可解釋的3D注意力圖,突出與阿茲海默症相關的關鍵大腦區域。
本文提出了一種新的多模態融合框架MDA,通過構建模態之間的線性注意力關係,實現了對不同模態的自適應調整權重,從而提高了多模態數據的表示能力,並能夠包容缺失模態或內在噪音。
提出一個名為"Arges"的深度學習框架,利用時空轉換器和位置編碼來有效地評估潰瘍性結腸炎內視鏡視頻的嚴重程度。
提出一種新穎的多任務預訓練框架,利用腦部解剖和形態特徵作為先導任務,並結合自監督學習任務,以提高3D Swin Transformer在腦部MRI分析的效能。
本文提出了一種新的框架,利用細胞分割結果建立不同組織病理學模態之間的空間對應,從而實現細胞層面的特徵整合和分析。
本文提出了一種新的多階段預訓練策略,包括基於自回歸生成的自監督學習、基於X光影像-報告對比學習以及監督微調,以提高X光醫療報告生成的性能。同時,我們還對CheXpert Plus數據集進行了全面的基準測試,涵蓋了19種主流X光報告生成模型和16種大型語言模型,為後續研究者提供了重要的參考和比較依據。