본 연구에서는 GROUNDHOG라는 새로운 프레임워크를 소개한다. GROUNDHOG는 대형 언어 모델에서 픽셀 단위의 설명 가능한 접지를 가능하게 하는 것을 목표로 한다.
GROUNDHOG의 핵심 구성은 다음과 같다:
이를 통해 GROUNDHOG는 기존 접근법에 비해 픽셀 단위의 정밀한 접지를 달성할 수 있다. 또한 접지 실패 시 문제의 원인을 쉽게 진단할 수 있다는 장점이 있다.
GROUNDHOG의 성능 평가를 위해 M3G2라는 새로운 데이터셋을 구축하였다. M3G2는 27개의 기존 데이터셋을 통합하고 확장하여, 다양한 시각-언어 접지 과제를 포함하고 있다.
실험 결과, GROUNDHOG는 다양한 접지 과제에서 우수한 성능을 보였다. 특히 복잡한 시각 입력에 대한 접지와 실패 사례 진단 측면에서 강점을 보였다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies