Core Concepts
본 연구는 최대 중첩 이산 웨이블릿 변환(MODWT)과 CatBoost 모델을 결합한 새로운 WaveCatBoost 아키텍처를 제안하여 실시간 대기 오염 물질 농도를 예측한다. 이 하이브리드 접근법은 시계열 데이터에서 신호와 잡음을 효과적으로 분리하여 예측 정확도와 강건성을 향상시킨다.
Abstract
본 연구는 실시간 대기 오염 물질 농도 예측을 위한 새로운 WaveCatBoost 모델을 제안한다. 이 모델은 최대 중첩 이산 웨이블릿 변환(MODWT)과 CatBoost 모델을 결합하여 구현된다.
데이터 수집 및 전처리 단계:
인도 메갈라야 지역의 중앙 대기 오염 관제 위원회(CPCB) 센서 네트워크와 저비용 대기질 센서 시스템(LAQS)에서 실시간 대기 오염 물질 농도 데이터 수집
결측값 보정 및 시간당 평균 계산을 통해 준실시간 데이터 생성
데이터 정규화를 위해 min-max 정규화 적용
WaveCatBoost 모델 구조:
MODWT를 사용하여 대기 오염 물질 농도 시계열을 고주파 및 저주파 성분으로 분해
각 성분 시계열에 대해 CatBoost 모델 적용하여 예측
IMODWT를 통해 개별 예측값을 결합하여 최종 예측 생성
실험 결과:
CPCB 센서와 ID1 센서 데이터에 대해 다양한 예측 기간(1일, 7일, 14일, 31일)에서 WaveCatBoost 모델이 기존 방법들보다 우수한 성능 달성
통계적 유의성 검정 결과, WaveCatBoost 모델의 성능이 다른 모델들에 비해 유의미하게 향상됨을 확인
확률적 예측 밴드 생성을 위해 컨포멀 예측 기법 적용
결론적으로, 제안된 WaveCatBoost 모델은 실시간 대기질 예측 분야에서 우수한 성능을 보이며, 환경 모니터링 및 공공 보건 정책 수립에 활용될 수 있다.
Stats
대기 오염 물질 농도 데이터는 1분 간격으로 수집되며, 시간당 평균값으로 변환됨
대기 오염 물질 농도 범위: NO2 (ppb), O3 (ppb), CO (ppb), SO2 (ppb), PM2.5 (μg/m3), PM10 (μg/m3)