DREAMLLM은 다음과 같은 두 가지 핵심 원칙을 바탕으로 설계되었다:
원본 멀티모달 데이터 공간에서의 직접 샘플링: DREAMLLM은 언어와 이미지 모달리티의 사후 분포를 직접 모델링한다. 이를 통해 CLIP과 같은 외부 특징 추출기의 한계와 정보 손실을 극복하고, 더 깊이 있는 멀티모달 이해를 달성한다.
상호 배열된 문서 생성 사전 학습(I-GPT): DREAMLLM은 텍스트와 이미지 내용, 그리고 비정형 레이아웃을 모두 모델링하는 상호 배열된 멀티모달 문서를 생성하도록 학습된다. 이를 통해 모든 조건부, 주변, 그리고 결합 멀티모달 분포를 효과적으로 학습할 수 있다.
이러한 접근을 통해 DREAMLLM은 자유로운 형태의 상호 배열된 멀티모달 콘텐츠를 생성할 수 있는 최초의 MLLM이 되었다. 다양한 실험 결과, DREAMLLM은 제로샷 멀티모달 범용 모델로서 뛰어난 성능을 보여주었다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Runpei Dong,... kl. arxiv.org 03-19-2024
https://arxiv.org/pdf/2309.11499.pdfDybere Forespørgsler