본 연구는 비주얼-언어 모델(VLM) 학습을 위해 대규모 언어 모델(LLM)과 이미지 생성 모델을 활용하는 새로운 접근법을 제안한다.
먼저, LLM을 활용하여 다양한 캡션을 합성한다. 그 다음, 이 캡션을 바탕으로 텍스트-이미지 생성 모델을 통해 이미지 임베딩을 생성한다. 이렇게 생성된 합성 이미지-텍스트 쌍을 VLM 학습에 활용한다.
실험 결과, 합성 데이터를 활용한 VLM이 인간 레이블 데이터만으로 학습한 모델 대비 17% 향상된 성능을 보였다. 또한 이미지 임베딩 공간에서 생성하는 것이 픽셀 공간에서 생성하는 것보다 25% 더 효율적인 것으로 나타났다.
이 연구는 대규모, 맞춤형 이미지 데이터셋 생성을 위한 유망한 기술을 제시하며, 데이터 효율성과 자원 활용도를 높여 다양한 도메인에서 VLM의 성능과 적용 범위를 확장할 수 있다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問