المفاهيم الأساسية
기존 장면 그래프 생성 모델들은 데이터셋의 노이즈 레이블 문제를 간과해왔다. 이 논문에서는 노이즈 레이블 문제를 해결하기 위해 노이즈 레이블 수정 및 견고한 훈련 전략인 NICEST를 제안한다.
الملخص
이 논문은 장면 그래프 생성(SGG) 문제에서 노이즈 레이블 문제를 다룬다. 기존 SGG 모델들은 다음과 같은 두 가지 가정을 전제로 하고 있다: 1) 모든 수동 주석된 긍정 샘플은 equally correct하다. 2) 모든 비주석된 부정 샘플은 절대적으로 배경이다.
그러나 저자들은 이 두 가정이 SGG에 적용되지 않는다고 주장한다. 실제로 SGG 데이터셋에는 "noisy" 관계 레이블이 많이 존재하며, 이는 모델 훈련을 편향시킨다.
이를 해결하기 위해 저자들은 NICEST(NoIsy label CorrEction and Sample Training)를 제안한다. NICEST는 두 부분으로 구성된다:
- NICE(NoIsy label CorrEction): NICE는 노이즈 샘플을 탐지하고 더 높은 품질의 soft 관계 레이블을 할당한다. 구체적으로 NICE는 다음 3단계로 구성된다:
- Neg-NSD: 부정 노이즈 샘플 탐지. 이를 out-of-distribution 탐지 문제로 다룸.
- Pos-NSD: 긍정 노이즈 샘플 탐지. 밀도 기반 클러스터링 알고리즘 사용.
- NSC: 노이즈 샘플 레이블 보정. 가중치 KNN 사용하여 soft 레이블 할당.
- NIST(NoIsy Sample Training): NIST는 다중 교사 지식 증류 기반 훈련 전략으로, 편향된 지식을 완화하여 모델이 편향되지 않은 지식을 학습할 수 있게 한다. 동적 가중치 전략을 사용하여 다양한 교사 모델의 편향을 제어한다.
또한 저자들은 기존 SGG 벤치마크의 한계를 극복하기 위해 VG-OOD라는 새로운 벤치마크를 제안했다. VG-OOD는 훈련 세트와 테스트 세트 간 관계 분포를 의도적으로 다르게 만들어, 모델의 일반화 능력을 더 잘 평가할 수 있다.
실험 결과, NICEST는 다양한 SGG 모델과 데이터셋에서 효과적이고 일반화 능력이 뛰어난 것으로 나타났다.
الإحصائيات
기존 SGG 데이터셋의 관계 레이블 분포는 head 카테고리가 tail 카테고리보다 38배 더 많다.
VG-OOD 데이터셋의 훈련 세트와 테스트 세트 간 관계 분포 KL divergence는 7.55로, 원본 VG의 0.82에 비해 크게 증가했다.
اقتباسات
"Nearly all existing SGG models have overlooked the ground-truth annotation qualities of mainstream SGG datasets, i.e., they assume: 1) all the manually annotated positive samples are equally correct; 2) all the un-annotated negative samples are absolutely background."
"We argue that neither of the assumptions applies to SGG: there are numerous "noisy" ground-truth predicate labels that break these two assumptions and harm the training of unbiased SGG models."