核心概念
與傳統的邏輯迴歸模型相比,機器學習模型,特別是最近鄰演算法,可以有效地用於對責任保險保單進行分類(區分有索賠和無索賠的保單),即使在具有大量零索賠的不平衡數據集中也是如此。
參考文獻: Qazvini, M. (2022). 利用機器學習模型解決責任險中的分類問題:一項比較研究。
研究目標: 本研究旨在探討各種機器學習模型在責任保險中對保單進行分類的有效性,特別是區分有索賠和無索賠的保單。
方法: 本研究使用了法國精算師協會 2017 年定價競賽的數據集,其中包含有關機動車輛第三方責任保險(TPL)的保單和索賠信息。研究人員採用了最近鄰演算法和邏輯迴歸模型(包含不同的正則化參數)對數據進行分類,並比較了它們在樣本外準確性方面的表現。
主要發現: 研究結果表明,最近鄰演算法在處理此類不平衡數據集時表現出良好的性能,其準確率與傳統的邏輯迴歸模型相當。
主要結論: 作者認為,與傳統的邏輯迴歸模型相比,機器學習模型,特別是最近鄰演算法,可以有效地用於對責任保險保單進行分類,即使在具有大量零索賠的不平衡數據集中也是如此。
意義: 這項研究強調了機器學習技術在保險業中的潛力,特別是在風險評估和定價方面。通過準確地對保單進行分類,保險公司可以優化其定價策略並提高盈利能力。
局限性和未來研究: 未來可以進一步研究其他機器學習模型,例如支持向量機和決策樹,以評估它們在此類分類問題上的性能。此外,探索處理不平衡數據集的不同技術,例如過採樣和欠採樣,也將是有益的。
統計資料
數據集中有 87.3% 的保單沒有索賠記錄,而 12.7% 的保單有索賠記錄,這表明數據集是不平衡的。
最近鄰演算法在 k 值為 20 時,訓練集和測試集的準確率均約為 87%。
在 k 值為 3 且權重均勻的情況下,最近鄰演算法可以準確預測 208 個“有索賠”和 20,764 個“無索賠”的案例。