Hulk는 2D 비전, 3D 비전, 스켈레톤 기반, 비전-언어 태스크를 단일 모델로 처리할 수 있는 최초의 다중 모달 인간 중심 범용 모델이다. 다양한 입출력 형식을 단순화하고 이를 모달리티 번역 문제로 정의함으로써, Hulk는 다양한 인간 중심 태스크에서 최첨단 성능을 달성할 수 있다.