Core Concepts
데이터 노이즈가 존재할 때 경험적 위험 최소화(ERM) 기반 알고리즘은 일반화 성능이 저하되지만, 일부 도메인 일반화(DG) 알고리즘은 노이즈에 대한 강건성을 가지고 있어 이를 완화할 수 있다.
Abstract
이 논문은 데이터 노이즈가 도메인 일반화 문제에 미치는 영향을 이해하고자 한다. 이를 위해 다음과 같은 내용을 다룬다:
유한 샘플 환경에서 ERM이 노이즈와 가성 상관관계로 인해 일반화 성능이 저하되는 이유를 이론적으로 분석한다. 노이즈 수준과 가성 상관관계 정도가 클수록 ERM이 가성 특징에 더 의존하게 되어 소수 그룹의 성능이 크게 저하된다.
일부 DG 알고리즘(IRM, V-REx)이 노이즈에 대한 강건성을 가지고 있음을 보인다. 이는 도메인 간 정규화를 통해 노이즈 데이터의 독립적인 메모리화를 억제하기 때문이다.
합성 데이터 실험에서는 DG 알고리즘의 노이즈 강건성이 성능 향상으로 이어지지만, 실제 데이터셋에서는 ERM과 DG 알고리즘의 성능 차이가 크지 않다는 것을 확인한다. 이는 실제 데이터에서 가성 상관관계와 노이즈 문제가 심각하지 않을 수 있음을 시사한다.
실험 결과를 바탕으로 ERM과 DG 알고리즘의 성능 차이가 나타나지 않는 이유를 논의한다. 데이터 증강, 사전 학습 모델 사용, 가성 상관관계와 노이즈 조건의 만족 여부 등이 중요한 요인으로 작용할 수 있다.
Stats
노이즈 수준이 높아질수록 소수 그룹의 성능이 크게 저하된다.
더 많은 데이터를 사용하면 노이즈의 영향을 줄일 수 있다.
가성 상관관계가 강할수록 노이즈에 의한 성능 저하가 심각해진다.
Quotes
"노이즈 수준과 가성 상관관계 정도가 클수록 ERM이 가성 특징에 더 의존하게 되어 소수 그룹의 성능이 크게 저하된다."
"일부 DG 알고리즘(IRM, V-REx)이 노이즈에 대한 강건성을 가지고 있음을 보인다."
"실제 데이터에서 가성 상관관계와 노이즈 문제가 심각하지 않을 수 있음을 시사한다."