Core Concepts
영상과 텍스트 간 구조적 유사성을 활용하여 참조 표현을 이해하고 영상 내 해당 영역을 찾는 방법을 제안한다.
Abstract
이 논문은 영상과 텍스트 간 구조적 유사성을 활용하여 제로샷 참조 표현 이해 문제를 해결하는 방법을 제안한다.
먼저, 영상과 텍스트를 각각 (주체, 술어, 객체) 형태의 트리플릿으로 분해한다. 이후 VLA(Vision-Language Alignment) 모델을 활용하여 텍스트 트리플릿과 영상 트리플릿 간 구조적 유사성을 계산한다. 이를 통해 텍스트 참조 표현과 영상 내 해당 영역을 매칭할 수 있다.
또한 VLA 모델의 관계 이해 능력을 향상시키기 위해, 관계 데이터셋을 활용하여 모델을 추가 학습한다. 이를 통해 트리플릿 간 유사성 계산 성능을 높일 수 있다.
실험 결과, 제안 방법은 기존 SOTA 모델 대비 RefCOCO/+/g 데이터셋에서 최대 19.5%의 성능 향상을 보였다. 또한 복잡한 캡션이 포함된 Who's Waldo 데이터셋에서도 지도학습 모델과 유사한 수준의 성능을 달성했다.
Stats
영상과 텍스트 간 구조적 유사성을 활용하여 참조 표현 이해 성능을 19.5% 향상시켰다.
Who's Waldo 데이터셋에서 지도학습 모델과 유사한 수준의 성능을 달성했다.
Quotes
"Zero-shot 참조 표현 이해는 제공된 텍스트 프롬프트에 해당하는 영상 내 바운딩 박스를 찾는 것을 목표로 한다."
"기존 대규모 비전-언어 정렬(VLA) 모델은 이 두 가지 측면 모두에서 어려움을 겪고 있어 직접 사용할 수 없다."