HAMMR은 대규모 언어 모델과 도구의 조합 접근법을 발전시켜 다양한 시각적 질문 답변 과제를 해결할 수 있는 단일 시스템을 제안한다. 계층적 구조를 통해 특화된 에이전트들을 도구로 활용하여 복잡한 과제에 대한 해결력을 높였다.
본 연구는 시각적 질문 답변 과정에서 가장 관련성 있는 하위 그래프를 내재적으로 생성하여 설명을 제공하는 해석 가능한 접근법을 제안한다.
실제 세계 응용 프로그램에서 질문의 유효성을 확인하고 이를 사용자에게 전달하는 것이 중요하다. 이를 위해 VISREAS 데이터셋을 소개하며, 기존 모델의 한계를 극복하기 위한 LOGIC2VISION 모델을 제안한다.