Core Concepts
불균형 데이터를 다루기 위해 생성적 심층 학습 모델인 CTGAN을 활용하여 충돌 데이터를 생성하고, 이를 통해 충돌 심각도 모델의 성능을 향상시킬 수 있다.
Abstract
이 연구는 충돌 데이터의 불균형 문제를 해결하기 위해 생성적 심층 학습 모델인 CTGAN을 활용하였다.
데이터 준비:
워싱턴 주의 2014년부터 2018년까지 발생한 고속도로 및 주요 도로 상의 충돌 데이터를 사용하였다.
14개의 변수(운전자 특성, 충돌 특성, 도로 특성 등)를 선정하였으며, 이 중 대부분은 이산 변수이다.
전체 데이터 중 치명적 충돌은 0.05%에 불과하여 심각한 불균형 문제가 존재한다.
데이터 재표본화:
과대표집(CTGAN, SMOTE-NC, TVAE), 과소표집(RU), 혼합표집(CTGAN-RU) 기법을 적용하여 훈련 데이터를 균형화하였다.
균형화된 훈련 데이터의 치명적 충돌 대 비치명적 충돌 비율은 1:1로 조정하였다.
충돌 심각도 분류 모델링:
로지스틱 회귀 모델을 사용하여 충돌 심각도(치명적, 비치명적)를 분류하였다.
민감도, 특이도, G-mean 지표를 통해 모델 성능을 평가하였다.
결과 분석:
CTGAN-RU 기법을 사용한 모델이 가장 우수한 성능을 보였다(G-mean 0.851).
과대표집 기법 중에서는 CTGAN이 가장 좋은 성능을 보였다.
민감도와 G-mean 지표는 비치명적 충돌 데이터 수가 증가할수록 저하되는 경향을 보였다.
이 연구는 불균형 충돌 데이터를 효과적으로 다루기 위한 생성적 심층 학습 기반 접근법을 제시하였으며, 충돌 심각도 모델링의 성능 향상에 기여할 것으로 기대된다.
Stats
치명적 충돌의 경우 평균 속도 제한이 60.988 mph로 비치명적 충돌의 58.646 mph보다 높다.
치명적 충돌의 경우 평균 곡률 각도가 0.811도로 비치명적 충돌의 0.685도보다 크다.
치명적 충돌의 경우 평균 경사도가 0.069%로 비치명적 충돌의 -0.179%보다 높다.
치명적 충돌의 경우 평균 차량 수가 2.494대로 비치명적 충돌의 2.368대보다 많다.
Quotes
"불균형 충돌 데이터는 치명적 충돌이 매우 드물어 치명적 충돌 결과를 적절히 적합 및 해석하는 데 어려움을 겪는다."
"기존의 데이터 재표본화 방법들은 연속 변수에 초점을 맞추어 설계되어 있어 이산 변수를 효과적으로 다루는 데 어려움이 있다."
"CTGAN은 조건부 생성기를 통해 이산 변수의 분포를 잘 학습하고 생성할 수 있어 충돌 데이터의 불균형 문제를 해결할 수 있다."