Core Concepts
현재 멀티모달 대형 언어 모델(MLLM)의 성능 향상을 위해서는 고품질의 지시 튜닝 데이터가 필수적이지만, 이를 수작업으로 생성하는 것은 비용이 많이 들고 비효율적이다. 이를 해결하기 위해 Genixer라는 자동화된 데이터 생성 파이프라인을 제안한다.
Abstract
이 논문은 멀티모달 대형 언어 모델(MLLM)의 성능 향상을 위한 자동화된 데이터 생성 파이프라인 Genixer를 소개한다.
데이터 수집: 9가지 대표적인 멀티모달 태스크(Common VQA, Adv VQA, MC VQA, MD, REC, REG, PointQA, Q→CBoxA, RD)의 데이터를 수집한다.
지시 템플릿 설계: 두 가지 모드(일반 지시 모드, 특정 지시 모드)의 지시 템플릿을 설계하여 다양한 유형의 데이터를 생성할 수 있도록 한다.
MLLM 강화: 기존 MLLM 모델(LLaVA1.5, Shikra)을 fine-tuning하여 GenixerL, GenixerS 데이터 생성기를 만든다.
데이터 생성 및 필터링: GenixerL은 915K 개의 VQA 유사 데이터를, GenixerS는 350K 개의 REC 유사 데이터를 생성한다. 데이터 품질 유지를 위해 Fuyu-8B와 CLIP 모델을 활용한 필터링 과정을 거친다.
실험 결과, 생성된 데이터를 활용하여 LLaVA1.5와 Shikra 모델의 성능이 향상되었음을 확인할 수 있다. 이를 통해 Genixer가 MLLM의 데이터 생성 능력을 효과적으로 향상시킬 수 있음을 보여준다.
Stats
현재 멀티모달 대형 언어 모델(MLLM)의 성능 향상을 위해서는 고품질의 지시 튜닝 데이터가 필수적이다.
수작업으로 데이터를 생성하는 것은 비용이 많이 들고 비효율적이다.
기존 MLLM 모델로는 복잡한 태스크의 데이터를 효과적으로 생성하기 어렵다.
Quotes
"To attain superior performance, one pioneer model like InstructBLIP [13] requires training on multiple held-in datasets, such as VQAv2 [15] and OKVQA [35], from traditional Vision-Language (VL) tasks."
"Unfortunately, these held-in datasets suffer from a limitation in image diversity, as most of them originate from the COCO dataset [27], potentially restricting the model generalization ability on unseen visual data."