核心概念
데이터 노이즈가 경험적 위험 최소화(ERM) 방식의 일반화 성능을 저하시키는 반면, 일부 도메인 일반화(DG) 알고리즘은 노이즈 강건성을 가지고 있어 일반화 성능을 향상시킬 수 있다.
要約
이 논문은 도메인 일반화 문제를 데이터 노이즈 관점에서 분석합니다. 이론적으로 과대 매개변수화된 모델에서 ERM은 데이터 노이즈로 인해 잘못된 상관관계에 의존하게 되어 일반화 성능이 저하됩니다. 반면 일부 DG 알고리즘은 암묵적인 노이즈 강건성을 가지고 있어 이를 완화할 수 있습니다.
실험 결과, 합성 데이터에서는 노이즈 강건성이 DG 알고리즘의 성능 향상으로 이어지지만, 실제 데이터에서는 그렇지 않습니다. 이는 실제 데이터에서 ERM의 실패 모드가 이론적 조건을 만족하지 않기 때문으로 보입니다. 결과적으로 노이즈 강건성이 반드시 실제 성능 향상으로 이어지지는 않으며, 데이터 증강 등 다른 접근법도 경쟁력 있는 것으로 나타났습니다.
統計
과대 매개변수화된 모델에서 ERM은 데이터 노이즈로 인해 잘못된 상관관계에 의존하게 되어 일반화 성능이 저하된다.
일부 DG 알고리즘은 암묵적인 노이즈 강건성을 가지고 있어 이를 완화할 수 있다.
합성 데이터에서는 노이즈 강건성이 DG 알고리즘의 성능 향상으로 이어지지만, 실제 데이터에서는 그렇지 않다.
引用
"데이터 노이즈가 경험적 위험 최소화(ERM) 방식의 일반화 성능을 저하시키는 반면, 일부 도메인 일반화(DG) 알고리즘은 노이즈 강건성을 가지고 있어 일반화 성능을 향상시킬 수 있다."
"실험 결과, 합성 데이터에서는 노이즈 강건성이 DG 알고리즘의 성능 향상으로 이어지지만, 실제 데이터에서는 그렇지 않다."