المفاهيم الأساسية
保険データの特徴抽出と重要な変数の係数の信頼区間を適切に推定する方法を提案する。
الملخص
本論文では、保険データの分析において重要な特徴抽出と、その後の係数の信頼区間推定について議論している。
まず、保険データ分析における特徴抽出の重要性について述べている。保険会社は過去の請求データを分析して、平均請求額などの推定値を提供する際に、単一の点推定値ではなく、95%信頼区間を計算することが重要である。この区間は、真の平均請求額がその範囲に含まれる確率が95%であることを示す。
次に、特徴選択後の係数推定における問題点について説明している。ラッソ推定量は大きな係数に対して非無視できるバイアスを持つため、係数の推論には適切な補正が必要である。従来の統計的推論(p値、信頼区間)は特徴選択プロセスを考慮していないため、妥当でない可能性がある。
そこで、デバイアス推定量、ブートストラップ法、ラッソ+リッジ法など、特徴選択後の係数推定と信頼区間構築の手法を説明している。特に、ツイーディ回帰モデルにおける適用方法についても述べている。
最後に、シミュレーション研究と実データ分析の結果を示し、提案手法の有効性を確認している。
الإحصائيات
ポアソン回帰の場合:
真の非ゼロ係数に対する平均信頼区間カバレッジ率は0.97。
真のゼロ係数に対する平均信頼区間カバレッジ率は0.778。
負の二項回帰の場合:
真の非ゼロ係数に対する平均信頼区間カバレッジ率は0.89。
真のゼロ係数に対する平均信頼区間カバレッジ率は0.786。