本文探討了在統計數據生產過程中,如何利用早期樣本數據對總體規模進行預測。傳統上,基於多源估計的人口規模估計需要等待所有樣本數據收集完畢才能進行。然而,當數據收集過程存在時間延遲時,這種方法就顯得不切實際。
文章首先介紹了雙源估計和三源估計的基本概念,並指出當樣本來源於行政數據時,樣本獨立性假設往往不成立。為了解決這個問題,文章提出了一種新的方法,即結合使用期望最大化算法和基於早期樣本數據的多源估計模型。
文章假設在時間 t = t0 和 t = t1 分別有三個樣本 At, Bt, Ct 可用,其中 t1 的樣本數據 At1, Bt1, Ct1 依次到達。文章的核心思想是利用 t0 時刻的完整樣本數據和 t1 時刻的部分樣本數據,通過期望最大化算法對缺失數據進行填充,進而估計 t1 時刻的總體規模。
文章提出了兩種模型:
文章將該方法應用於估計荷蘭無家可歸者的人數。結果表明,與基於樣本獨立性假設的雙源估計相比,該方法得到的短期預測結果更接近於基於完整樣本數據的三源估計結果。
文章提出的基於三源估計的短期預測模型為解決樣本數據收集存在時間延遲的情況提供了一種有效的解決方案。該方法放寬了樣本獨立性假設,並通過期望最大化算法有效地處理了缺失數據問題,從而提高了預測的準確性。
翻譯成其他語言
從原文內容
arxiv.org
深入探究