HAMMR은 대규모 언어 모델과 도구의 조합 접근법을 발전시켜 다양한 시각적 질문 답변 과제를 해결할 수 있는 단일 시스템을 제안한다. 계층적 구조를 통해 특화된 에이전트들을 도구로 활용하여 복잡한 과제에 대한 해결력을 높였다.