核心概念
本稿では、ネットワーク上で観測されたカウント時系列データのモデリングに適した、新しいベイズ混合モデルであるPNARM(Poisson Network Autoregression Mixture Model)を提案しています。このモデルは、アイルランドにおけるCOVID-19症例数の予測に適用され、既存モデルよりも優れた予測精度を示しました。さらに、ノードのクラスタリングを通じて、地域ごとの感染状況の異質性を明らかにしました。
要約
アイルランドにおけるCOVID-19症例数を題材とした、カウント時系列データのための新しいベイズ混合モデルの提案
本稿は、アイルランドにおけるCOVID-19症例数の週次データを用い、カウント時系列データのモデリングに適した、新しいベイズ混合モデルであるPNARM(Poisson Network Autoregression Mixture Model)を提案しています。
研究の背景と目的
- 多変量カウント時系列データは、異なる地域におけるCOVID-19症例数の推移など、多くの分野で観察される。
- 従来のガウス分布を仮定したモデルは、カウントデータには不適切であり、ネットワーク上のノードにおけるクラスタリングを考慮していない。
- 本研究では、ノードのクラスタリングを考慮し、異質なノードダイナミクスに対応可能な、新しいベイズポアソンネットワーク自己回帰混合モデル(PNARM)を提案する。
PNARMモデルの特徴
- ノードは潜在的なクラスラベルを持ち、自己回帰特性に影響を与える。
- クラス割り当て自体はランダムである。
- グラフィカルアシスタントグループ化ネットワーク自己回帰モデル(GAGNAR)をガウス分布からポアソン分布に拡張し、パーティションの事前分布を一般化したものである。
- 線形ポアソンネットワーク自己回帰(PNAR(1))モデルの頻度主義的な特殊ケースである。
データと分析方法
- アイルランドの各カウンティにおける2020年3月1日から25週間分のCOVID-19症例数の週次データを使用。
- Armbruster and Reinert (2024)の経済ハブネットワークを基に、隣接するカウンティを接続し、ダブリン、コーク、リムリック、ゴールウェイ、ウォーターフォードの経済ハブへの接続を追加したネットワークを使用。
- PNARMモデル、GAGNARモデル、PNARモデルの予測性能を比較。
- パーティションの事前分布として、ディリクレ多項有限混合モデル(FMM)と、Dahl (2008)による距離依存パーティション事前分布(DDP)の2種類を検討。
結果
- PNARMモデルは、GAGNARモデルやPNARモデルと比較して、アイルランドのCOVID-19データセットに適用した場合、予測精度が優れていることが示唆された。
- 5成分混合モデルとGAGNARモデルから得られた最小二乗分割を比較したところ、調整ランド指標は0.31であった。これは、GAGNARモデルがクラスター内で一定のイノベーション分散を仮定しているのに対し、PNARMモデルはそうではないためと考えられる。
結論と今後の展望
- PNARM(1)モデルは、異質なノードの振る舞いを許容するカウント分布に合わせたネットワーク時系列モデルを持つことの有用性を示している。
- 今後の課題としては、負の二項分布や、COVID-19の集団発生を考慮したポリア・エッゲンベルガー過程など、カウント分布の異なるモデルを検討することが挙げられる。
統計
5成分混合モデルとGAGNARモデルから得られた最小二乗分割を比較したところ、調整ランド指標は0.31であった。
PNARM, DDP prior, with h = 1, α = 1のモデルにおける平均絶対スケール誤差は0.52、訓練スコアは6.23、テストスコアは4.47であった。
PNARM, 5-component FMMのモデルにおける平均絶対スケール誤差は0.46、訓練スコアは6.42、テストスコアは4.81であった。
PNARM, 4-component FMMのモデルにおける平均絶対スケール誤差は0.50、訓練スコアは6.53、テストスコアは5.09であった。
GAGNARのモデルにおける平均絶対スケール誤差は0.65、訓練スコアは6.99、テストスコアは6.99であった。
PNAR with raw countsのモデルにおける平均絶対スケール誤差は0.70、訓練スコアは7.07、テストスコアは6.52であった。
PNAR with population-adjusted predictorsのモデルにおける平均絶対スケール誤差は0.68、訓練スコアは7.13、テストスコアは6.17であった。
引用
From preliminary MCMC runs, other DDP hyperparameter values of α, h seemed to produce similar posterior distributions for the coefficients.