Core Concepts
비전-언어 모델을 활용하여 이미지에서 다양한 시각적 관계를 포함하는 장면 그래프를 효율적으로 생성할 수 있다.
Abstract
이 논문은 장면 그래프 생성(SGG) 문제에 대한 새로운 접근법을 제안한다. 기존 방법들은 제한된 관계 개념만을 다루는 반면, 이 연구에서는 비전-언어 모델(VLM)을 활용하여 오픈 어휘 SGG를 수행한다.
구체적으로 다음과 같은 내용을 다룬다:
이미지-텍스트 생성 패러다임을 활용하여 장면 그래프 시퀀스를 생성한다. 이를 통해 VLM의 강력한 오픈 어휘 생성 능력을 활용할 수 있다.
관계 인식 토큰을 활용한 엔티티 위치 예측 모듈을 도입하여 장면 그래프 구축을 효과적으로 수행한다.
생성된 장면 그래프 지식을 다른 비전-언어 작업에 전이하여 성능을 향상시킨다.
실험 결과, 제안 방법은 다양한 오픈 어휘 SGG 벤치마크에서 우수한 성능을 보였으며, 비전-언어 작업에서도 일관된 성능 향상을 달성했다.
Stats
장면 그래프 시퀀스에서 평균 87.2개의 관계 트리플릿이 생성되었다.
평균 95.3%의 관계 트리플릿이 유효했다.
출력 시퀀스 길이를 50% 줄여도 성능이 유사하게 유지되었다.
Quotes
"우리는 이미지-텍스트 생성 패러다임을 활용하여 장면 그래프 생성 문제를 해결한다."
"우리의 통합 프레임워크는 명시적인 관계 모델링 지식을 다른 비전-언어 작업에 전이할 수 있게 한다."