核心概念
본 연구는 노이즈 레이블이 있는 상황에서 크로스 모달 검색의 성능을 향상시키기 위해 최적 전송 기반의 통합 프레임워크를 제안한다. 이를 통해 노이즈 레이블의 영향을 완화하고 다중 모달 간 이질성 격차를 해소할 수 있다.
要約
본 연구는 노이즈 레이블이 있는 상황에서 크로스 모달 검색의 성능을 향상시키기 위한 통합 최적 전송 프레임워크 UOT-RCL을 제안한다.
- 노이즈 레이블 문제 해결을 위한 부분 최적 전송 기반 점진적 레이블 보정:
- 노이즈 레이블로 인한 영향을 완화하기 위해 노이즈 레이블 샘플을 점진적으로 정확한 의미론적 클래스로 전송하는 부분 최적 전송 문제를 정의
- 서로 다른 모달리티를 통합하여 정확한 전송 비용을 제공하는 새로운 크로스 모달 일관성 비용 함수 설계
- 이질성 격차 해소를 위한 최적 전송 기반 관계 정렬:
- 다중 모달 데이터 간 이질성 격차를 해소하기 위해 의미론적 수준의 크로스 모달 매칭을 추론하는 최적 전송 문제 정의
- 관계 기반 비용 함수를 통해 신뢰할 수 있는 샘플의 연결을 보존
이 두 가지 최적 전송 기반 구성 요소를 통합하여 강건한 크로스 모달 검색을 달성할 수 있다.
統計
노이즈 레이블이 있는 상황에서도 제안 방법이 기존 최첨단 방법들을 크게 능가한다. 예를 들어 XMediaNet 데이터셋에서 노이즈 비율이 80%일 때 제안 방법은 최고 성능 대비 4.3% 향상을 보인다.
클래스 수가 많아질수록 노이즈 레이블이 있는 상황에서 학습이 더 어려워지는데, 제안 방법은 이러한 상황에서도 일관되게 우수한 성능을 보인다.
引用
"Training with noisy labels can remarkably harm the performance of supervised CMR models. As the ratio of label noise increases, the mAP scores of these methods will decrease rapidly."
"Even if the labels are noisy, unsupervised methods are usually inferior to supervised counterparts, which indicates that unsupervised methods are poor at learning semantic-level discriminative representations."
"Our method outperforms all existing state-of-the-art methods on all datasets with different noise settings, which shows the superior robustness of UOT-RCL against noisy labels."