核心概念
대규모 멀티모달 명령 데이터셋(Infinity-MM)과 오픈소스 모델 기반 합성 데이터 생성 방법을 통해 오픈소스 비전-언어 모델(Aquila-VL-2B)의 성능을 향상시켰습니다.
摘要
Infinity-MM: 대규모 고품질 명령 데이터를 사용한 멀티모달 성능 향상
본 연구 논문에서는 대규모 멀티모달 명령 데이터셋인 Infinity-MM과, 이를 기반으로 훈련된 20억 개 매개변수의 VLM(Vision-Language Model)인 Aquila-VL-2B를 소개합니다. Aquila-VL-2B는 유사한 규모의 모델 중 최첨단 성능을 달성했으며, 이는 명령 데이터 확장 및 합성 데이터 생성이 오픈소스 모델의 성능을 크게 향상시킬 수 있음을 보여줍니다.
최근 비전-언어 모델(VLM)은 상당한 진전을 이루었지만, 오픈소스 명령 데이터의 제한된 규모와 품질로 인해 비공개 모델에 비해 성능이 저하되는 문제점이 있습니다. 본 연구에서는 이러한 한계를 해결하기 위해 대규모 멀티모달 명령 데이터셋인 Infinity-MM을 구축하고, 오픈소스 VLM을 기반으로 하는 합성 명령 생성 방법을 제안합니다.
Infinity-MM은 엄격한 품질 필터링 및 중복 제거를 통해 개선된 4천만 개의 샘플을 포함하는 대규모 멀티모달 명령 데이터셋입니다.
데이터셋 구성
이미지-캡션 데이터: Emu2에서 생성한 이미지-캡션 데이터셋을 수집했습니다.
일반 시각적 명령 데이터: OCR, 수학적 추론, 차트 이해 등 다양한 일반 작업 데이터를 수집했습니다.
선택적 시각적 명령 데이터: Llava-OneVision, Docmatix 및 Infinity-Instruct의 주관적인 구성 요소에서 가져온 데이터를 사용했습니다.
GPT4 및 합성 데이터: GPT-4에서 생성한 데이터와 3.2절에서 소개된 합성 명령 데이터, 그리고 특정 작업에 맞춘 소량의 데이터가 포함됩니다.
합성 데이터 생성
본 연구에서는 오픈소스 VLM을 기반으로 하는 멀티모달 명령 데이터 합성 방법을 제안합니다.
이미지 및 명령 태깅 시스템: RAM++ 모델을 사용하여 객체, 동작, 장면과 같은 주요 정보를 추출하여 이미지에 자동으로 주석을 달고, 명령 생성 프로세스를 체계화하기 위해 세 가지 수준의 명령 태깅 시스템을 설계했습니다.
질문 생성: 수집한 오픈소스 데이터 중 일부를 시드 데이터로 활용하여 이미지 태그와 명령 태그 간의 상관관계를 분석하여 매핑 규칙을 설정하고, VLM 모델에 이미지와 대상 명령 유형을 입력하여 이미지를 기반으로 질문을 생성합니다.
답변 생성: 생성된 질문에 대한 답변을 생성하고, 답변의 정확성과 다양성을 보장하기 위해 다양한 프롬프트를 도입했습니다.