核心概念
本文提出了一種名為 Cough-E 的新型咳嗽偵測演算法,該演算法利用音訊和運動感測器數據,並針對邊緣裝置進行了優化,以實現實時、隱私保護和節能的咳嗽監測。
導言
持續性咳嗽監測對於醫生進行居家監測和治療呼吸系統疾病非常有幫助。
現有的咳嗽偵測演算法在數據隱私和長期監測方面存在限制。
邊緣人工智慧 (Edge-AI) 是一種很有前景的解決方案,它可以在數據源頭附近處理隱私敏感數據。
然而,在資源受限的設備上部署高效能但資源需求大的演算法也帶來了挑戰。
方法
邊緣人工智慧超參數權衡分析
**信號選擇:**比較了胸部麥克風、外置麥克風和運動感測器的性能。
**信號採樣率:**評估了不同採樣率(16、8 和 4 kHz)對音訊分類性能的影響。
**窗口長度:**評估了不同窗口長度(0.4 到 1.0 秒)對分類器的影響。
**特徵提取和優化:**使用了時域、頻域和梅爾頻率域特徵,並通過遞迴特徵消除和交叉驗證 (RFECV) 進行了優化。
分類器訓練和優化
使用音訊和運動數據訓練了輕量級、可解釋的機器學習分類器(XGBoost)。
採用嵌套交叉驗證框架來驗證超參數選擇和模型性能。
邊緣人工智慧模型執行
模擬了邊緣人工智慧執行流程,以評估多模式參數對執行時間和能耗的影響。
考慮了三種執行配置:僅運動模型、僅音訊模型和多模式模型。
多模式模型設計和執行
提出了一種多模式分類方法,利用運動分類器作為音訊分類器的觸發機制。
探索了不同的多模式執行模式(無重新運行和重新運行)及其對性能和能耗的影響。
後處理演算法
設計了一種基於音訊的後處理演算法,用於提取每個咳嗽事件的確切開始和結束位置。
該演算法利用了咳嗽生理學和特定於受試者的信息來完善咳嗽區域。
機器學習性能指標
使用基於事件的成功指標(靈敏度、精確度、F1 分數和每小時誤報數)來評估模型性能。
結果
邊緣人工智慧超參數共同優化
**感測器選擇:**外置麥克風表現出最高的咳嗽事件檢測性能。
**音訊模型優化:**8 kHz 採樣率和 0.8 秒窗口長度提供了最佳性能。
**梅爾頻譜圖與 MFCC 特徵:**梅爾頻譜圖特徵在所有窗口長度上都具有更高的平均性能,並且在嵌入式平台上效率更高。
**特徵數量選擇:**RFECV 選擇了 84 個特徵,在保持高平均精度得分的同时,降低了佔空比。
**運動模型優化:**使用 36 個特徵的分類器表現出最高的性能。
多模式模型性能
與僅使用音訊的模型相比,多模式方法在 F1 分數僅下降 1.26% 的情況下,實現了 70.56% 的能耗降低。
結論
本文提出了一種基於邊緣運算的多模式咳嗽偵測演算法 Cough-E,該演算法利用音訊和運動數據,並針對邊緣裝置進行了優化。
Cough-E 在保持高精度咳嗽檢測的同時,顯著降低了能耗,使其適用於實時、隱私保護和節能的咳嗽監測。
統計資料
與僅使用音訊的模型相比,Cough-E 在 F1 分數僅下降 1.26% 的情況下,實現了 70.56% 的能耗降低。
外置麥克風的 F1 分數表現最佳,相較之下,胸部麥克風和運動模型的平均 F1 分數分別降低了 9.3% 和 16.5%。
8 kHz 採樣率的音訊模型的 F1 分數比原始 16 kHz 模型提高了 1.67%。
使用梅爾頻譜圖特徵的模型在所有窗口長度上都比使用 MFCC 特徵的模型具有更高的平均性能。
與使用餘弦查找表的 MFCC 相比,採用梅爾頻譜圖可將能耗降低 20 倍。
RFECV 選擇了 84 個特徵,在保持高平均精度得分的同时,將佔空比降低到 23.62%。