Conceitos essenciais
감염병 발생 및 비발생 시기를 조기에 정확하게 예측할 수 있는 기계 학습 기반 프레임워크를 제시한다.
Resumo
이 연구는 감염병 발생 및 비발생 시기를 조기에 예측하기 위한 기계 학습 기반 프레임워크를 제안한다.
합성 데이터 생성:
- 감염-회복(SIR) 모델에 백색 잡음, 곱셈 환경 잡음, 인구 통계 잡음을 추가하여 3가지 유형의 합성 데이터 생성
- 각 유형별로 7,200개의 전염병 발생 시계열과 7,200개의 비발생 시계열 생성, 총 14,400개 시계열 데이터 생성
- 발생 시계열에서 전환점 400일 전까지의 400일 데이터를 "T"로, 비발생 시계열에서 임의의 400일 데이터를 "N"으로 레이블링
특징 추출 및 분류기 학습:
- 22개 통계적 특징(22SF)과 5개 조기 경보 신호 지표(5EWSI)를 추출
- 4가지 기계 학습 모델(GBM, LRM, KNN, SVM)을 사용하여 32개의 분류기 학습
성능 평가:
- 합성 데이터 테스트 세트에서 분류기 성능 평가 (AUC 0.99 이상 달성)
- 롤링 윈도우와 확장 윈도우 실험을 통해 입력 데이터 길이와 전환점과의 거리에 따른 성능 변화 분석
- 싱가포르 COVID-19 데이터와 홍콩 SARS 데이터로 실제 데이터 테스트
- COVID-19 데이터: 대부분의 분류기가 우수한 성능 (정확도 1)
- SARS 데이터: 일부 분류기만 우수한 성능 (정확도 1)
결과적으로 이 연구는 감염병 발생 및 비발생 시기를 조기에 정확하게 예측할 수 있는 기계 학습 기반 프레임워크를 제시하였다. 합성 데이터와 실제 데이터 테스트를 통해 프레임워크의 우수한 성능을 입증하였다.
Estatísticas
감염병 발생 시 기초 재생산 지수 R0가 1을 초과하여 전염병이 지속될 수 있음
감염병 비발생 시 R0가 1 미만으로 질병이 사라짐
Citações
"Forecasting the occurrence and absence of novel disease outbreaks is essential for disease management."
"Early preventative intervention is associated with lower incidence."
"Understanding the disease transmission mechanisms and formulating context-specific mathematical models often necessitate sufficient data for parameterization, which contradicts the limited availability of collected data at the early stage."