核心概念
高次元M推定量の罰則パラメータを効率的に選択するために、クロスバリデーション後にブートストラップを用いる新手法を提案し、その有効性をシミュレーションと実証分析を通じて示す。
本論文は、高次元データにおけるℓ1罰則付きM推定量の罰則パラメータを選択するための新しい手法を提案しています。この手法は、クロスバリデーション後にブートストラップを用いることから、BCV(bootstrap-after-cross-validation)法と名付けられています。
従来の罰則パラメータ選択手法としては、クロスバリデーションやそれに関連するサンプル分割手法が挙げられます。しかし、これらの手法は、少なくともいくつかの重要な側面において分析が困難であるという問題点があります。例えば、サンプル分割手法では、ℓ2推定誤差 $| \hat{\theta}(\lambda) - \theta_0 |_2$ の上限は求められますが、ℓ1推定誤差 $| \hat{\theta}(\lambda) - \theta_0 |_1$ の上限は求められません。一方、BCV法では、ℓ2推定誤差とℓ1推定誤差の両方の上限を求めることができます。
また、クロスバリデーションでは、λがクロスバリデーションによって選択された場合、ℓ1推定誤差とℓ2推定誤差の上限はどちらも不明な場合がほとんどです。唯一の例外は、LASSOによって推定された線形平均回帰モデルです。この特殊なケースでは、Chetverikov et al. (2021)とMiolane and Montanari (2018)において上限が導出されていますが、これらの論文に記載されている上限は、本論文で示されている上限よりも緩やかです。さらに、重要なことに、クロスバリデーションは、比較的大きなサンプルであっても、サイズ制御の観点から、かなり悪い推論結果につながる可能性があり、推定誤差の観点からも、BCV法よりも優れているわけではありません。
BCV法は、計算が比較的簡単で、幅広いモデルに適用でき、λ ≈ c0qn(1−α)となるようなλを与えるという意味で保守的ではありません。
本論文では、シミュレーションを通じて、BCV法が推定誤差の観点からクロスバリデーションに劣っておらず、推論の観点からクロスバリデーションよりも優れている可能性があることを示しています。また、実証分析として、Fryer Jr (2019)の警察官による武力行使における人種差を調査した論文を再検討し、BCV法を用いることで、Fryer Jr (2019)の発見がモデルの特定や、当初考慮されていたよりもはるかに多くの候補となる制御変数の設定に対してロバストであることを示しています。