시각-언어 모델의 사전 학습 언어 세트에 내재된 관계 단어 편향을 해소하여 장면 그래프 생성 성능을 향상시킨다.
장면 그래프 생성 모델의 성능을 평가하기 위한 정확하고 엄격한 지표를 제공하고, 이를 효율적으로 구현한다.
기존 장면 그래프 생성 모델들은 데이터셋의 노이즈 레이블 문제를 간과해왔다. 이 논문에서는 노이즈 레이블 문제를 해결하기 위해 노이즈 레이블 수정 및 견고한 훈련 전략인 NICEST를 제안한다.
제안된 하이브리드 관계 할당 기법은 기존 DETR 기반 장면 그래프 생성 모델의 느린 수렴 문제를 해결한다. 이를 통해 모델은 더 적은 에폭으로도 최신 성능을 달성할 수 있다.