이 논문은 멀티모달 대형 언어 모델(MLLM)의 한계를 해결하기 위해 UniCode라는 새로운 접근법을 제안한다. 기존 MLLM은 텍스트 전용 코드북에 의존하여 이미지 생성과 같은 멀티모달 작업에 제한적이었다. UniCode는 언어 주도 반복 학습 패러다임과 in-context 이미지 압축 해제 사전 학습 작업을 통해 단일 코드북으로 비주얼과 텍스트를 모두 처리할 수 있다. 이를 통해 UniCode는 비언어적 생성 작업으로 시각적 지침 튜닝을 확장할 수 있다. 실험 결과, UniCode는 더 적은 매개변수와 데이터로도 우수한 시각적 재구성 및 생성 성능을 보여주었으며, 다양한 VQA 벤치마크에서도 선도적인 MLLM과 견줄만한 성과를 달성했다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Sipeng Zheng... lúc arxiv.org 03-15-2024
https://arxiv.org/pdf/2403.09072.pdfYêu cầu sâu hơn