核心概念
機器學習演算法,特別是隨機森林和邏輯迴歸,可以用於預測調查中的無回應者,並找出影響無回應的關鍵因素,如訪談模式、地理區域和健康狀況。
摘要
文獻資訊
Qazvini, M. (2023). Analysis of ELSA COVID-19 Substudy response rate using machine learning algorithms. arXiv preprint arXiv:2411.00297.
研究目標
本研究旨在探討影響英國老齡化縱向研究 (ELSA) COVID-19 子研究第二波調查中無回應率的因素,並利用機器學習演算法預測無回應者。
研究方法
- 資料來源:ELSA COVID-19 子研究第一波和第二波調查數據,包含約 5,820 名受訪者的社會經濟、心理健康、身體健康、COVID-19 相關健康狀況、就業和人口統計等資訊。
- 機器學習模型:K 近鄰演算法 (KNN)、隨機森林 (RF)、AdaBoost、邏輯迴歸、神經網路 (NN) 和支持向量機 (SVC)。
- 模型評估指標:準確率、平衡準確率、精確率、召回率、ROC 曲線下面積 (AUC)。
- 特徵重要性分析:利用排列重要性方法識別影響回應率的關鍵因素。
主要發現
- 隨機森林模型在平衡準確率方面表現最佳,K 近鄰演算法在精確率和測試準確率方面表現最佳,邏輯迴歸在 AUC 方面表現最佳。
- 影響回應率的關鍵因素包括:訪談模式、年齡、居住地區、COVID-19 相關健康狀況、就業狀況等。
主要結論
機器學習演算法可以有效預測 ELSA COVID-19 子研究中的無回應者,並識別出影響回應率的關鍵因素。研究結果可為未來調查設計和實施提供參考,以提高回應率和數據品質。
研究意義
本研究為利用機器學習方法分析調查回應率提供了新的思路,並為理解 COVID-19 疫情對老年人群體的影響提供了數據支持。
研究限制與未來方向
- 本研究僅使用了 ELSA COVID-19 子研究的數據,未來可使用其他數據集進行驗證。
- 未來研究可探討其他機器學習演算法在預測回應率方面的應用。
統計資料
ELSA COVID-19 子研究分為兩波進行,第一波調查時間為 2020 年 6 月 3 日至 7 月 26 日,第二波調查時間為 2020 年 11 月 4 日至 12 月 20 日。
約有 5,820 名核心成員參與了第一波調查,而只有 5,594 名核心成員參與了第二波調查,回應率下降了約 4%。
線上訪談的無回應率約為 5%,而電話訪談的無回應率約為 20%。
引述
"It is argued that Statistical Organisations that carry out follow-up surveys can reduce the cost by identifying the groups who may not participate in the future study."
"Our purpose is to predict the non-responses in the 2nd wave using ML algorithms and identify the factors that affect the non-responses in the 2nd wave."