核心概念
본 연구는 비주얼, 텍스트 및 기타 신호를 효율적으로 토큰화할 수 있는 통합 코드북을 학습하는 UniCode라는 혁신적인 접근법을 제안한다.
要約
이 논문은 멀티모달 대형 언어 모델(MLLM)의 한계를 해결하기 위해 UniCode라는 새로운 접근법을 제안한다. 기존 MLLM은 텍스트 전용 코드북에 의존하여 이미지 생성과 같은 멀티모달 작업에 제한적이었다. UniCode는 언어 주도 반복 학습 패러다임과 in-context 이미지 압축 해제 사전 학습 작업을 통해 단일 코드북으로 비주얼과 텍스트를 모두 처리할 수 있다. 이를 통해 UniCode는 비언어적 생성 작업으로 시각적 지침 튜닝을 확장할 수 있다. 실험 결과, UniCode는 더 적은 매개변수와 데이터로도 우수한 시각적 재구성 및 생성 성능을 보여주었으며, 다양한 VQA 벤치마크에서도 선도적인 MLLM과 견줄만한 성과를 달성했다.
統計
본 모델은 기존 MLLM 대비 훨씬 적은 매개변수와 데이터로 우수한 성능을 달성했다.
UniCode는 시각적 재구성 및 생성 작업에서 선도적인 MLLM과 견줄만한 성과를 보였다.
UniCode는 다양한 VQA 벤치마크에서 안정적인 성능 향상을 보였다.
引用
"본 연구는 비주얼, 텍스트 및 기타 신호를 효율적으로 토큰화할 수 있는 통합 코드북을 학습하는 UniCode라는 혁신적인 접근법을 제안한다."
"UniCode는 언어 주도 반복 학습 패러다임과 in-context 이미지 압축 해제 사전 학습 작업을 통해 단일 코드북으로 비주얼과 텍스트를 모두 처리할 수 있다."
"실험 결과, UniCode는 더 적은 매개변수와 데이터로도 우수한 시각적 재구성 및 생성 성능을 보여주었으며, 다양한 VQA 벤치마크에서도 선도적인 MLLM과 견줄만한 성과를 달성했다."