본 논문에서는 멀티모달 대규모 언어 모델(MLLM)의 웹페이지 이해 및 HTML 코드 생성 능력을 향상시키기 위해 대규모 웹페이지-코드 데이터셋인 Web2Code와 이를 평가하기 위한 새로운 프레임워크를 제안합니다.
본 논문에서는 멀티모달 대규모 언어 모델(MLLM)의 추론 효율성을 향상시키기 위해 비전 토큰의 중요도를 전체 수명 주기(비전 인코딩, 프리필링, 디코딩)에서 측정하여 불필요한 토큰을 단계적으로 제거하는 MustDrop이라는 새로운 방법을 제안합니다.
고해상도 이미지 및 고프레임 비디오 처리 시 발생하는 멀티모달 대규모 언어 모델의 효율성 문제를 해결하기 위해 하이브리드 트랜스포머-MAMBA 모델을 사용한 새로운 접근 방식을 제안한다.
멀티모달 대규모 언어 모델 (MLLM)의 객체 인식 능력을 향상시키기 위해, 이미지에서 추출한 태그 정보를 활용하여 모델을 학습하고, 외부 데이터베이스에서 검색한 관련 태그 정보를 추가적으로 제공하는 TUNA (Tag-grounded visual instruction tUNing with retrieval Augmentation) 프레임워크를 제안한다.
본 논문에서는 사전 학습된 비전 트랜스포머에서 '시각적 앵커'의 존재를 밝히고, 이를 정보 집계에 활용하여 멀티모달 대규모 언어 모델(MLLM)의 정확도와 효율성을 향상시키는 새로운 비전-언어 연결기인 앵커 포머(AcFormer)를 제안합니다.
멀티모달 대규모 언어 모델(MLLM)은 이미지와 텍스트를 결합하여 처리하는 능력에도 불구하고, 봉가드 문제와 같은 추상적 시각적 추론(AVR) 과제에서 여전히 상당한 어려움을 겪고 있다.
GPT4Video는 LLM, 시각적 특징 추출기 및 Stable Diffusion 생성 모델을 통합하여 비디오 이해와 생성 기능을 향상시키는 프레임워크로, 텍스트 기반 지시 미세 조정을 통해 효과적인 비디오 생성 및 안전성을 확보합니다.
웹페이지 UI에서 추출한 풍부한 텍스트 정보를 활용하여 멀티모달 대규모 언어 모델(MLLM)의 시각적 이해 능력을 향상시킬 수 있다.
본 논문에서는 멀티모달 언어 모델의 시각적 인식 능력을 향상시키기 위해, 멀티모달 디코더를 위한 MM-LoRA와 시각적 표현을 강화하는 QLadder라는 두 가지 새로운 기술을 결합한 아르카나 모델을 제안합니다.
본 논문에서는 다중 이미지를 활용한 시각적 접지 작업에서 기존 멀티모달 대규모 언어 모델(MLLM)의 성능을 평가하고, 이러한 모델의 잠재력과 개선 가능성을 확인하기 위해 새로운 벤치마크 데이터셋인 MC-Bench를 제시합니다.