核心概念
本研究提出了一種基於 Copula 迴歸和模型平均的半監督學習方法,有效利用未標記數據提升預測準確性,並在理論和模擬實驗中驗證了方法的有效性。
本研究關注於如何利用未標記數據提升預測準確性,特別是在半監督學習框架下,如何利用 Copula 迴歸和模型平均方法來實現這一目標。
研究背景
半監督學習在機器學習和統計領域受到廣泛關注,其主要挑戰是如何有效利用大量未標記數據。
現有研究主要集中於利用未標記數據提升線性模型係數估計,而本研究則探索利用 Copula 迴歸和模型平均方法來提升預測準確性。
研究方法
本研究將迴歸函數以 Copula 和邊緣分佈的形式表示,並利用未標記數據提升邊緣分佈的估計。
採用模型平均方法對基於不同 Copula 的預測結果進行加權,權重的選擇通過最小化預測風險的漸近無偏估計量來實現。
根據 Krogh & Vedelsby (1994) 提出的誤差-模糊分解方法,將預測風險分解為兩個部分,並利用未標記數據估計預測風險,從而提高估計精度。
研究結果
本研究證明了在半監督學習框架下,候選模型的 Copula 參數和迴歸函數估計量的漸近正態性,以及模型平均估計量的漸近最優性和權重一致性。
與監督學習方法相比,本研究提出的模型平均估計量在漸近最優性和權重一致性方面具有更快的收斂速度。
研究結論
本研究提出的基於 Copula 迴歸和模型平均的半監督學習方法能夠有效利用未標記數據提升預測準確性。
模擬實驗和加州住房數據集的結果驗證了該方法的有效性。
统计
本研究使用了五個由 Azriel 等人 (2022) 設計的數據生成過程 (DGP) 來評估模型的性能。
研究設定了不同的協變量維度 (p = 4, 7)、標記數據數量 (n = 200, 500) 和未標記數據數量 (N = n, 2n, 4n)。
研究使用了七個候選 Copula 函數,包括六個單獨的 Copula 函數和一個混合 Copula 函數。
研究採用均方預測誤差 (MSPE) 作為評估指標。