Conceptos Básicos
기존 멀티모달 대규모 언어 모델(MLLM)은 인간 중심적 이해를 위한 세분화된 주석이 부족한 데이터로 학습되어 복잡한 인간 중심적 시나리오에서 성능이 제한적이며, 이를 해결하기 위해 다단계 인간 중심적 주석을 갖춘 HERM-100K 데이터셋과 벤치마크 HERM-Bench를 제안한다.
Resumen
HERM: 인간 중심적 이해를 위한 멀티모달 대규모 언어 모델 벤치마킹 및 향상
본 논문은 인간 중심적 이해를 위한 멀티모달 대규모 언어 모델(MLLM)의 벤치마킹 및 향상에 관한 연구를 다룬다. 최근 MLLM은 시각적 이해 및 명령어 기반 작업 수행에서 주목할 만한 발전을 보였지만, 기존 이미지-텍스트 데이터는 인간 중심적 시각적 이해에 필수적인 세분화된 정보 정렬 및 통합을 충분히 지원하지 못한다는 한계가 있다.
본 연구에서는 MLLM의 인간 중심적 이해 능력을 평가하기 위한 벤치마크인 HERM-Bench를 소개한다. HERM-Bench는 기본적인 인식부터 복잡한 이해에 이르기까지 8가지 평가 차원을 포괄하며, 2,748개의 객관식 및 위치 정보 추출 문제로 구성된다. HERM-Bench를 이용한 평가 결과, 기존 MLLM은 복잡한 인간 중심적 시나리오 이해에 제한적인 성능을 보였다. 이러한 문제를 해결하기 위해 본 연구에서는 MLLM 학습을 위한 다단계 인간 중심적 주석을 갖춘 포괄적인 데이터셋인 HERM-100K를 제시한다. HERM-100K는 100,000개 이상의 인간 중심적 주석으로 구성되며, 다양한 이미지 소스에서 GPT-4V를 통해 생성되었다. 이러한 주석은 장면 세부 정보를 포착하는 이미지 수준의 캡션, 인간의 여러 차원을 포괄하는 인스턴스 수준 주석, 신체 부위 및 희귀 속성을 강조하는 속성 수준 주석을 포함한다.