核心概念
FedCVD 基準測試利用真實世界心血管疾病數據,突顯聯邦學習在處理非獨立同分布數據、長尾分布和標籤不完整性方面的挑戰,推動更安全、更有效的協作機器學習模型訓練,以改善心血管疾病的診斷和治療。
摘要
文獻資訊
標題:FedCVD:首個基於真實世界心血管疾病數據的聯邦學習基準測試
作者:Yukun Zhang, Guanzhong Chen, Zenglin Xu, Jianyong Wang, Dun Zeng, Junfan Li, Jinghua Wang, Yuan Qi, Irwin King
發表日期:2024年10月28日
研究目標
本研究旨在建立一個名為 FedCVD 的多中心聯邦學習基準測試,專為心血管疾病任務設計,以解決真實世界心血管疾病數據所帶來的挑戰,並促進在該領域開發更強大的聯邦學習算法。
方法
- 收集七個醫療機構的真實世界心血管疾病數據,涵蓋心電圖 (ECG) 和超聲心動圖 (ECHO) 數據。
- 建立兩個主要數據集:Fed-ECG 和 Fed-ECHO,分別用於多標籤分類和分割任務。
- 採用自然劃分策略,將數據集劃分到不同的機構,以模擬真實世界的聯邦學習場景。
- 評估多種主流聯邦學習算法在 FedCVD 上的性能,包括 FedAvg、FedProx、Scaffold、FedInit、Ditto、FedSM 和 FedALA。
- 使用多種指標評估算法性能,包括 Micro F1、平均精度均值 (mAP)、Dice 相似係數和 Hausdorff 距離。
主要發現
- FedCVD 中自然存在的非獨立同分布數據特性比大多數先前聯邦基準測試中手動劃分的設置更具挑戰性。
- 主流聯邦學習算法在 FedCVD 的長尾測試中表現不佳。
- 對於最困難的任務,即標籤不完整的 Fed-ECHO,主流聯邦學習算法幾乎無法維持效用,但仍然優於僅利用每個客戶端上未標記數據的非協作算法。
- 利用未標記數據的聯邦半監督學習算法實現了一定的性能提升。
主要結論
FedCVD 為評估和比較聯邦學習算法在真實世界心血管疾病數據上的性能提供了一個有價值的基準測試。研究結果強調了開發能夠有效應對數據異質性、處理長尾類別和利用未標記數據的聯邦學習算法的必要性。
意義
FedCVD 的提出對於推動聯邦學習在心血管疾病領域的應用具有重要意義。它提供了一個公開、可復現的基準測試平台,促進了更安全、更有效的協作機器學習模型的開發,以改善心血管疾病的診斷和治療。
局限性和未來研究方向
- FedCVD 目前提供的數據類型和任務種類有限。
- 實驗中比較的聯邦學習算法,特別是半監督學習算法,數量有限。
未來研究方向包括擴展 FedCVD 的數據範圍,納入更多種類的心血管疾病數據和任務,並評估更多先進的聯邦學習算法。
統計資料
心血管疾病每年造成全球超過 1800 萬人死亡。
FedCVD 包含來自七個醫療機構的真實世界心血管疾病數據。
Fed-ECG 數據集包含來自四個不同數據集的 12 導聯心電圖信號。
Fed-ECHO 數據集源自三個來源:CAMUS、ECHO-DYNAMIC 和 HMC-QU。
引述
“心血管疾病 (CVD) 每年造成全球超過 1800 萬人死亡,使其成為全球最嚴重的健康挑戰之一。”
“據我們所知,這是第一個專為心血管疾病檢測設計的真實世界聯邦學習基準測試,名為 FedCVD。”
“FedCVD 突出了真實世界聯邦學習中 CVD 應用的三個關鍵特徵,每個特徵都對聯邦學習算法提出了重大挑戰:非獨立同分布數據、長尾分佈和標籤不完整性。”