Core Concepts
데이터 노이즈가 존재할 때 경험적 위험 최소화(ERM) 기법은 특이 상관관계에 더 의존하게 되어 일반화 성능이 저하되지만, 일부 도메인 일반화 알고리즘은 노이즈 강건성을 가지고 있어 이를 완화할 수 있다.
Abstract
기계 학습 모델은 훈련 데이터와 다른 분포의 테스트 데이터에 대해 일반화하기 어려운 문제가 있다. 이를 해결하기 위해 도메인 일반화(DG) 알고리즘이 개발되었다.
이 연구는 데이터 노이즈가 존재할 때 ERM과 DG 알고리즘의 성능을 분석한다.
이론적 분석 결과, ERM은 데이터 노이즈와 특이 상관관계가 심할 때 특이 특성에 더 의존하게 되어 일반화 성능이 저하된다.
반면 일부 DG 알고리즘은 노이즈 강건성을 가지고 있어 이를 완화할 수 있다. 이는 알고리즘의 최적화 과정에서 나타나는 특성이다.
실험 결과, 합성 데이터에서는 노이즈 강건성이 DG 알고리즘의 성능 향상으로 이어졌지만, 실세계 데이터에서는 그렇지 않았다. 이는 실세계 데이터에서 ERM이 여전히 경쟁력 있는 것으로 해석된다.
실세계 데이터에서 ERM이 경쟁력 있는 이유는 사전 학습된 모델 및 데이터 증강 기법 활용, 특이 상관관계의 심각성 정도, 불변 특성 학습 조건 미충족 등으로 분석된다.
Stats
데이터 노이즈 수준이 높아질수록 소수 그룹의 테스트 오류가 크게 증가한다.
더 많은 데이터를 사용하면 노이즈의 영향을 줄일 수 있다.
노이즈 수준이 높아질수록 ERM 기반 모델의 가중치 norm이 DG 모델보다 작아진다.
Quotes
"데이터 노이즈는 특이 상관관계의 영향을 악화시켜 일반화 성능을 저하시킨다."
"일부 DG 알고리즘은 노이즈 강건성을 가지고 있어 이를 완화할 수 있다."