본 연구에서는 GROUNDHOG라는 새로운 프레임워크를 소개하여, 대형 언어 모델에서 픽셀 단위의 설명 가능한 접지를 가능하게 하였다. GROUNDHOG는 사전 학습된 마스크 제안 네트워크를 활용하여 대형 언어 모델에 픽셀 단위의 시각적 특징을 제공하고, 이를 통해 접지에 활용할 수 있는 세분화 마스크 제안을 검색한다.