核心概念
기존 멀티모달 대규모 언어 모델(MLLM)은 인간 중심적 이해를 위한 세분화된 주석이 부족한 데이터로 학습되어 복잡한 인간 중심적 시나리오에서 성능이 제한적이며, 이를 해결하기 위해 다단계 인간 중심적 주석을 갖춘 HERM-100K 데이터셋과 벤치마크 HERM-Bench를 제안한다.
要約
HERM: 인간 중심적 이해를 위한 멀티모달 대규모 언어 모델 벤치마킹 및 향상
본 논문은 인간 중심적 이해를 위한 멀티모달 대규모 언어 모델(MLLM)의 벤치마킹 및 향상에 관한 연구를 다룬다. 최근 MLLM은 시각적 이해 및 명령어 기반 작업 수행에서 주목할 만한 발전을 보였지만, 기존 이미지-텍스트 데이터는 인간 중심적 시각적 이해에 필수적인 세분화된 정보 정렬 및 통합을 충분히 지원하지 못한다는 한계가 있다.
본 연구에서는 MLLM의 인간 중심적 이해 능력을 평가하기 위한 벤치마크인 HERM-Bench를 소개한다. HERM-Bench는 기본적인 인식부터 복잡한 이해에 이르기까지 8가지 평가 차원을 포괄하며, 2,748개의 객관식 및 위치 정보 추출 문제로 구성된다. HERM-Bench를 이용한 평가 결과, 기존 MLLM은 복잡한 인간 중심적 시나리오 이해에 제한적인 성능을 보였다. 이러한 문제를 해결하기 위해 본 연구에서는 MLLM 학습을 위한 다단계 인간 중심적 주석을 갖춘 포괄적인 데이터셋인 HERM-100K를 제시한다. HERM-100K는 100,000개 이상의 인간 중심적 주석으로 구성되며, 다양한 이미지 소스에서 GPT-4V를 통해 생성되었다. 이러한 주석은 장면 세부 정보를 포착하는 이미지 수준의 캡션, 인간의 여러 차원을 포괄하는 인스턴스 수준 주석, 신체 부위 및 희귀 속성을 강조하는 속성 수준 주석을 포함한다.