المفاهيم الأساسية
提出一個全面的框架,不僅監測隨時間推移的模型漂移,還採用自適應機制來減輕COVID-19檢測模型在動態音頻數據上的性能波動。
الملخص
本研究提出了一個全面的框架,用於診斷傳染病(重點關注COVID-19)。該框架結合了深度學習模型和監督及無監督學習方法,以監測和減輕模型退化和概念漂移的影響。
框架包括三個主要模塊:
- 基線模型:基於卷積神經網絡(CNN)的深度學習模型,用於COVID-19檢測。
- 漂移檢測機制:利用最大平均差異(MMD)距離監測開發數據和部署後數據之間的差異,並採用CUSUM算法檢測顯著的數據分佈變化。
- 自適應模塊:當檢測到概念漂移時,啟動重新訓練過程,包括無監督域自適應(UDA)和主動學習(AL)兩種方法,以提高模型的適應性和泛化能力。
在COVID-19 Sounds和COSWARA數據集上的評估結果表明:
- UDA方法最多可將平衡準確率提高22%和24%。
- AL方法的改善效果更顯著,平衡準確率最多提高30%和60%。
該框架成功解決了COVID-19檢測中模型漂移的挑戰,確保了模型性能隨時間的持續性,為COVID-19和其他傳染病的可靠診斷工具的開發做出了貢獻。
الإحصائيات
COVID-19 Sounds數據集:
開發集中COVID-19陽性樣本佔42.5%
部署後集中COVID-19陽性樣本佔64.1%
COSWARA數據集:
開發集中COVID-19陽性樣本佔11.8%
部署後集中COVID-19陽性樣本佔80.2%
اقتباسات
"COVID-19大流行突出了對能夠從不斷變化的數據源檢測疾病的強大和可適應的診斷工具的需求。"
"動態環境的變化是導致單一模型無法持續準確預測的一個重要因素,這在COVID-19的背景下尤其關鍵,因為病毒株的快速和不可預測的變化。"
"通過監測模型性能的退化,可以檢測到概念漂移,這為解決這些挑戰提供了重要依據。"