비디오 그라운딩 모델의 확장성을 높이기 위해 late fusion 기반의 단순한 모델 SnAG를 제안하였으며, 이를 통해 장시간 비디오와 다수의 쿼리에 대해 우수한 성능과 효율성을 달성하였다.