Konsep Inti
노이즈가 있는 장기 꼬리 분포 데이터셋에서 균형 잡힌 깨끗한 부분집합을 추출하여 강건한 모델 학습을 가능하게 하는 방법을 제안한다.
Abstrak
이 논문은 실세계 데이터셋이 종종 클래스 불균형과 레이블 노이즈 문제를 겪는다는 점에 주목한다. 대부분의 기존 연구는 이 두 문제를 개별적으로 다루었지만, 이 논문에서는 이 두 문제를 통합적으로 해결하는 방법을 제안한다.
구체적으로 다음과 같은 접근법을 취한다:
- 무감독 대비 학습을 통해 견고한 특징 표현을 학습한다.
- 이 특징 표현과 클래스 프로토타입 간의 최적 전송 계획을 계산하여 각 샘플에 대한 유사도 점수를 얻는다.
- 관측된 레이블과 추정된 유사도 점수를 결합하여 깨끗하고 균형 잡힌 부분집합을 선별한다.
- 선별된 부분집합을 사용하여 최종 모델을 학습한다.
이러한 접근법을 통해 노이즈가 있는 장기 꼬리 분포 데이터셋에서 강건한 모델 학습이 가능해진다. 실험 결과, 제안 방법이 다양한 벤치마크 데이터셋에서 기존 방법들을 뛰어넘는 성능을 보였다.
Statistik
대부분의 실세계 데이터셋은 클래스 불균형과 레이블 노이즈 문제를 겪는다.
기존 방법들은 이 두 문제를 개별적으로 다루었지만, 이 논문에서는 통합적으로 해결하는 방법을 제안한다.
제안 방법은 무감독 대비 학습, 최적 전송 계획 계산, 관측 레이블과 추정 유사도 점수 결합을 통해 깨끗하고 균형 잡힌 부분집합을 선별한다.
실험 결과, 제안 방법이 다양한 벤치마크 데이터셋에서 기존 방법들을 뛰어넘는 성능을 보였다.
Kutipan
"실세계 데이터셋은 종종 클래스 불균형과 레이블 노이즈 문제를 겪는다."
"기존 방법들은 이 두 문제를 개별적으로 다루었지만, 이 논문에서는 통합적으로 해결하는 방법을 제안한다."
"제안 방법은 무감독 대비 학습, 최적 전송 계획 계산, 관측 레이블과 추정 유사도 점수 결합을 통해 깨끗하고 균형 잡힌 부분집합을 선별한다."