DREAMLLM은 다음과 같은 두 가지 핵심 원칙을 바탕으로 설계되었다:
원본 멀티모달 데이터 공간에서의 직접 샘플링: DREAMLLM은 언어와 이미지 모달리티의 사후 분포를 직접 모델링한다. 이를 통해 CLIP과 같은 외부 특징 추출기의 한계와 정보 손실을 극복하고, 더 깊이 있는 멀티모달 이해를 달성한다.
상호 배열된 문서 생성 사전 학습(I-GPT): DREAMLLM은 텍스트와 이미지 내용, 그리고 비정형 레이아웃을 모두 모델링하는 상호 배열된 멀티모달 문서를 생성하도록 학습된다. 이를 통해 모든 조건부, 주변, 그리고 결합 멀티모달 분포를 효과적으로 학습할 수 있다.
이러한 접근을 통해 DREAMLLM은 자유로운 형태의 상호 배열된 멀티모달 콘텐츠를 생성할 수 있는 최초의 MLLM이 되었다. 다양한 실험 결과, DREAMLLM은 제로샷 멀티모달 범용 모델로서 뛰어난 성능을 보여주었다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Runpei Dong,... klo arxiv.org 03-19-2024
https://arxiv.org/pdf/2309.11499.pdfSyvällisempiä Kysymyksiä