Core Concepts
노이즈 레이블이 있는 데이터 스트림 환경에서 정확한 샘플을 효과적으로 선별하여 지속 학습 성능을 향상시키는 NTD 알고리즘을 제안한다.
Abstract
이 논문은 노이즈 레이블과 모호한 작업 경계가 있는 데이터 스트림 환경에서의 효율적인 샘플 선택 전략을 다룬다.
노이즈 레이블 그룹화: 노이즈 레이블에 따라 샘플을 그룹화하고 노이즈 레이블 분포를 기록한다.
테스트 시간 증강: 메모리가 가득 차면 각 샘플의 테스트 시간 증강 평균 손실값을 기준으로 정확한 레이블의 샘플을 선별한다.
데이터 기반 편향 제거: 메모리 내 각 클래스의 샘플 수를 균형있게 유지하여 학습 과정의 편향을 완화한다.
제안한 NTD 알고리즘은 기존 접근법과 비교하여 정확도는 유지하거나 향상시키면서도 훈련 시간을 2.3배 단축하고 GPU 메모리 사용량을 1/5 수준으로 줄일 수 있다. 특히 복잡하고 실제적인 노이즈 데이터셋에서 성능 향상이 두드러진다.
Stats
온라인 학습 단계에서 CIFAR10 데이터셋의 Sym.-40% 노이즈 유형에 대한 평균 훈련 시간은 NTD가 0.19시간, 기존 접근법이 0.28시간이다.
메모리 사용 단계에서 CIFAR10 데이터셋의 Sym.-40% 노이즈 유형에 대한 GPU 메모리 사용량은 NTD가 834MiB, 기존 접근법이 4528MiB이다.