이 논문은 대규모 비전-언어 모델(LVLM)의 시각적 관계 이해 능력을 향상시키는 방법을 제안한다. 현재 LVLM은 객체 수준의 시각 콘텐츠를 지역화하고 텍스트를 이에 연결하는 기능은 갖추고 있지만, 시각적 관계를 정확하게 이해하는 데 어려움을 겪고 있다.
이를 해결하기 위해 저자들은 다음과 같은 접근법을 제안한다:
관계 인식 훈련 방식: 의미적 관계, 시간적 연관성, 기하학적 변환 등 다양한 유형의 시각적 관계를 이해할 수 있도록 단계적 훈련 전략을 사용한다.
데이터 구성 전략: 기존 공개 데이터셋의 주석을 활용하여 관계 정보를 추출하고, GPT-4를 통해 대화형 데이터로 변환한다. 이를 통해 추가 주석 없이도 관계 이해 능력을 학습할 수 있다.
저자들은 이러한 방법으로 RelationVLM이라는 LVLM을 구축했다. 정성적 및 정량적 평가를 통해 RelationVLM이 다양한 시각적 관계를 정확하게 이해하고 설명할 수 있음을 보였다. 또한 의료 진단, 이상 탐지 등 실세계 응용 분야에서 RelationVLM의 우수한 in-context 학습 및 일반화 능력을 확인했다.
이 연구는 LVLM의 발전을 촉진하여 더 광범위한 응용 분야로 확장할 수 있게 한다.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Zhipeng Huan... klokken arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12801.pdfDypere Spørsmål