المفاهيم الأساسية
CapsFusion은 웹 기반 이미지-텍스트 쌍과 합성 캡션을 효과적으로 통합하여 대규모 고품질 이미지-텍스트 데이터를 생성하는 혁신적인 프레임워크이다.
الملخص
이 연구는 대규모 멀티모달 모델(LMM)의 성능 향상을 위해 이미지-텍스트 데이터의 품질을 높이는 방법을 제안한다. 기존 연구에서는 웹 기반 이미지-텍스트 쌍이나 합성 캡션을 사용했지만, 각각 노이즈와 언어 복잡성 부족의 문제가 있었다.
CapsFusion은 이를 해결하기 위해 대규모 언어 모델(LLM)을 활용하여 웹 기반 이미지-텍스트 쌍과 합성 캡션의 장점을 결합한다. 구체적으로 다음과 같은 과정을 거친다:
- 합성 캡션 생성: 이미지 캡션 모델을 사용하여 웹 기반 이미지-텍스트 쌍에 대한 합성 캡션을 생성한다.
- 캡션 융합: ChatGPT를 활용하여 웹 기반 캡션과 합성 캡션의 정보를 유기적으로 통합한다.
- 대규모 캡션 생성: 융합된 캡션을 활용하여 LLaMA 모델을 fine-tuning하고, 이를 통해 대규모 고품질 캡션 데이터를 생성한다.
실험 결과, CapsFusion 캡션은 기존 캡션 대비 모델 성능, 샘플 효율성, 세계 지식 깊이, 확장성 등 모든 측면에서 뛰어난 성과를 보였다. 이는 CapsFusion이 향후 LMM 확장을 위한 유망한 후보임을 시사한다.
الإحصائيات
웹 기반 이미지-텍스트 쌍은 풍부한 실세계 지식을 포함하지만 노이즈가 많다.
합성 캡션은 문장 구조가 깨끗하지만 실세계 세부 정보가 부족하다.
CapsFusion 캡션은 실세계 지식과 문장 구조의 장점을 모두 포함한다.
اقتباسات
"Large Multimodal Models [3, 36, 51] (LMMs), which as versatile multimodal generalists bridge powerful pretrained large language models [52, 53] and vision encoders [43, 50], have garnered significant success in zero-shot multimodal tasks."
"Although image-text pairs harvested directly from the web [45] contribute instrumentally to the success of current LMMs, such web-scale data tend to be noisy and sub-optimal for model training [27, 34]."
"Extensive experiments show that CAPSFUSION captions exhibit remarkable all-round superiority over existing captions in terms of model performance (e.g., 18.8 and 18.3 improvements in CIDEr score on COCO and NoCaps), sample efficiency (requiring 11-16 times less computation than baselines), world knowledge depth, and scalability."