LLaVA-MR은 긴 동영상에서 중요한 순간을 정확하게 검색하기 위해 시간 인식 능력을 향상시키고 핵심 정보를 효율적으로 압축하는 새로운 MLLM 기반 접근 방식입니다.
Panther는 텍스트 지시를 시각적 프롬프트로 변환하여 멀티모달 LLM의 시각적 인식 능력을 향상시키고, 특히 사용자 지시에 따라 이미지 내 특정 세부 사항에 집중하도록 안내합니다.
본 논문에서는 사전 훈련된 멀티모달 대규모 언어 모델(MLLM)을 효율적으로 미세 조정하기 위해 비주얼 큐 향상(VCE)과 이중 저랭크 적응(Dual-LoRA)을 결합한 새로운 프레임워크를 제안합니다.
본 논문에서는 멀티모달 대규모 언어 모델(MLLM)의 웹페이지 이해 및 HTML 코드 생성 능력을 향상시키기 위해 대규모 웹페이지-코드 데이터셋인 Web2Code와 이를 평가하기 위한 새로운 프레임워크를 제안합니다.
본 논문에서는 멀티모달 대규모 언어 모델(MLLM)의 추론 효율성을 향상시키기 위해 비전 토큰의 중요도를 전체 수명 주기(비전 인코딩, 프리필링, 디코딩)에서 측정하여 불필요한 토큰을 단계적으로 제거하는 MustDrop이라는 새로운 방법을 제안합니다.
고해상도 이미지 및 고프레임 비디오 처리 시 발생하는 멀티모달 대규모 언어 모델의 효율성 문제를 해결하기 위해 하이브리드 트랜스포머-MAMBA 모델을 사용한 새로운 접근 방식을 제안한다.
멀티모달 대규모 언어 모델 (MLLM)의 객체 인식 능력을 향상시키기 위해, 이미지에서 추출한 태그 정보를 활용하여 모델을 학습하고, 외부 데이터베이스에서 검색한 관련 태그 정보를 추가적으로 제공하는 TUNA (Tag-grounded visual instruction tUNing with retrieval Augmentation) 프레임워크를 제안한다.
본 논문에서는 사전 학습된 비전 트랜스포머에서 '시각적 앵커'의 존재를 밝히고, 이를 정보 집계에 활용하여 멀티모달 대규모 언어 모델(MLLM)의 정확도와 효율성을 향상시키는 새로운 비전-언어 연결기인 앵커 포머(AcFormer)를 제안합니다.
멀티모달 대규모 언어 모델(MLLM)은 이미지와 텍스트를 결합하여 처리하는 능력에도 불구하고, 봉가드 문제와 같은 추상적 시각적 추론(AVR) 과제에서 여전히 상당한 어려움을 겪고 있다.
GPT4Video는 LLM, 시각적 특징 추출기 및 Stable Diffusion 생성 모델을 통합하여 비디오 이해와 생성 기능을 향상시키는 프레임워크로, 텍스트 기반 지시 미세 조정을 통해 효과적인 비디오 생성 및 안전성을 확보합니다.