Core Concepts
本研究では、時系列データの高周波成分と低周波成分を抽出するウェーブレット変換とCatBoostモデルを組み合わせた新しいWaveCatBoostアーキテクチャを提案し、大気汚染物質濃度の正確な実時間予測を行う。
Abstract
本研究では、大気質データの正確で信頼性の高い予測を行うために、ウェーブレット変換とCatBoostモデルを組み合わせたWaveCatBoostアーキテクチャを開発した。
データ収集と前処理:
インド・メガラヤ州の2つのセンサーネットワーク(CPCB、ID1)から1年間の大気汚染物質濃度データ(NO2、O3、CO、SO2、PM2.5、PM10)を収集し、前処理を行った。
欠損データの補完と時間平均化により、準リアルタイムのデータを生成した。
WaveCatBoostモデル:
ウェーブレット変換(MODWT)を用いて、大気汚染物質濃度時系列データを高周波成分と低周波成分に分解した。
各成分について、CatBoostモデルを適用して予測を行い、逆ウェーブレット変換により最終的な予測値を生成した。
CatBoostモデルは、時系列の順序性を考慮した ordered boosting を採用し、ターゲットリークを回避した。
実験結果:
提案手法は、既存の統計的および深層学習ベースの手法と比較して、CPCB及びID1センサーデータの1日、7日、14日、31日先の予測において優れた性能を示した。
多重比較検定の結果から、提案手法の性能が他手法に対して統計的に有意に優れていることが確認された。
提案手法は、点予測に加えて、コンフォーマル予測アプローチにより不確実性を定量化した確率的予測も提供できる。
本研究の成果は、大気質モニタリングと公衆衛生対策のための信頼性の高い予測ツールとして活用できる。今後は、空間依存性を考慮した拡張モデルの開発が期待される。
Stats
大気汚染物質濃度の1分間隔のデータを1年間収集した。
欠損データを補完し、時間平均化することで準リアルタイムのデータを生成した。
収集したデータには、NO2(ppb)、O3(ppb)、CO(ppb)、SO2(ppb)、PM2.5(μg/m3)、PM10(μg/m3)が含まれる。