Core Concepts
데이터 분포 변화에 따른 기계 학습 모델의 일반화 능력 및 불확실성을 정량화하여 실제 환경에서의 모델 견고성을 향상시키는 것이 핵심 목표이다.
Abstract
이 연구는 데이터 분포 변화가 기계 학습 모델의 일반화 능력과 불확실성에 미치는 영향을 체계적으로 분석하고자 한다. 두 가지 실험을 수행하였다:
실험 1:
이상 기체 근사를 사용하여 합성 데이터를 생성하고, 기능-타겟 상관관계의 변화가 모델 정확도에 미치는 영향을 분석하였다.
KL 발산과 Jensen-Shannon 거리를 사용하여 데이터 유사성을 정량화하고, 이를 모델 성능과 연관 지었다.
데이터 분포 변화가 클수록 모델 성능이 저하되는 것을 확인하였다.
실험 2:
이상 기체 근사를 사용하여 학습 데이터와 테스트 데이터의 특징 분포를 변화시켰다.
마할라노비스 거리를 사용하여 테스트 데이터의 학습 분포로부터의 편차를 측정하고, 이를 모델 예측 정확도 및 불확실성과 연관 지었다.
마할라노비스 거리가 증가할수록 예측 오류와 불확실성이 증가하는 것을 확인하였다.
이를 통해 데이터 분포 변화를 정량화하고 모델 불확실성을 평가하는 방법론을 제시하였다. 이는 실제 환경에서 기계 학습 모델의 견고성과 신뢰성을 향상시키는 데 기여할 것으로 기대된다.
Stats
이상 기체 데이터와 다른 기체 데이터 간 KL 발산은 0.10 ~ 6.11 범위로 나타났다.
이상 기체 데이터와 다른 기체 데이터 간 Jensen-Shannon 거리는 0.14 ~ 0.75 범위로 나타났다.
이상 기체 데이터와 다른 기체 데이터 간 평균 절대 백분율 오차(MAPE)는 0.48 ~ 3.55 범위로 나타났다.
학습 데이터와 테스트 데이터 간 마할라노비스 거리가 증가할수록 예측 오류와 불확실성이 증가하는 경향을 보였다.
Quotes
"데이터 분포 변화는 실제 환경에서 기계 학습 모델의 일반화 능력과 신뢰성에 직접적인 영향을 미치는 중요한 문제이다."
"데이터 분포 변화를 정량화하고 모델 불확실성을 평가하는 방법론은 기계 학습 모델의 견고성 향상에 핵심적인 역할을 할 것이다."