본 연구에서는 GROUNDHOG라는 새로운 프레임워크를 소개한다. GROUNDHOG는 대형 언어 모델에서 픽셀 단위의 설명 가능한 접지를 가능하게 하는 것을 목표로 한다.
GROUNDHOG의 핵심 구성은 다음과 같다:
이를 통해 GROUNDHOG는 기존 접근법에 비해 픽셀 단위의 정밀한 접지를 달성할 수 있다. 또한 접지 실패 시 문제의 원인을 쉽게 진단할 수 있다는 장점이 있다.
GROUNDHOG의 성능 평가를 위해 M3G2라는 새로운 데이터셋을 구축하였다. M3G2는 27개의 기존 데이터셋을 통합하고 확장하여, 다양한 시각-언어 접지 과제를 포함하고 있다.
실험 결과, GROUNDHOG는 다양한 접지 과제에서 우수한 성능을 보였다. 특히 복잡한 시각 입력에 대한 접지와 실패 사례 진단 측면에서 강점을 보였다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Yichi Zhang,... alle arxiv.org 04-17-2024
https://arxiv.org/pdf/2402.16846.pdfDomande più approfondite