本論文では、保険データの分析において重要な特徴抽出と、その後の係数の信頼区間推定について議論している。
まず、保険データ分析における特徴抽出の重要性について述べている。保険会社は過去の請求データを分析して、平均請求額などの推定値を提供する際に、単一の点推定値ではなく、95%信頼区間を計算することが重要である。この区間は、真の平均請求額がその範囲に含まれる確率が95%であることを示す。
次に、特徴選択後の係数推定における問題点について説明している。ラッソ推定量は大きな係数に対して非無視できるバイアスを持つため、係数の推論には適切な補正が必要である。従来の統計的推論(p値、信頼区間)は特徴選択プロセスを考慮していないため、妥当でない可能性がある。
そこで、デバイアス推定量、ブートストラップ法、ラッソ+リッジ法など、特徴選択後の係数推定と信頼区間構築の手法を説明している。特に、ツイーディ回帰モデルにおける適用方法についても述べている。
最後に、シミュレーション研究と実データ分析の結果を示し、提案手法の有効性を確認している。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies