허니비는 시각 정보와 언어 모델을 효과적으로 연결하는 새로운 프로젝터 설계를 제안하여, 기존 모델들에 비해 우수한 성능과 효율성을 달성했다.
다양한 유형의 오염된 데이터 샘플(오염된 샘플, 노이즈 레이블, 혼합)을 효과적으로 탐지하기 위해 다중 모달 대형 언어 모델의 강력한 크로스 모달 정렬 및 추론 능력을 활용한 범용 데이터 정화기 제안
다중 모달 대형 언어 모델은 시각적 입력에 대해 정확한 단서를 인지하지만 때로는 잘못된 내용을 생성한다. Pensieve는 유사한 이미지를 회고하고 비교하여 이러한 시각적 환각을 완화할 수 있다.
일반화된 참조 표현 세그멘테이션(GRES)은 단일 참조 표현이 여러 개체를 가리키거나 이미지에 존재하지 않는 대상을 식별할 수 있도록 확장된 참조 표현 세그멘테이션 문제이다. GSVA는 다중 [SEG] 토큰과 [REJ] 토큰을 학습하여 이러한 GRES 문제를 해결한다.
본 연구는 DetToolChain이라는 새로운 프롬프팅 패러다임을 제안하여 GPT-4V와 Gemini와 같은 다중 모달 대형 언어 모델(MLLM)의 제로 샷 객체 탐지 능력을 극대화한다.
다중 모달 대형 언어 모델의 내재된 안전성 메커니즘을 활용하여 안전한 응답을 생성하는 ECSO 기법을 제안한다.
본 연구는 다중 모달 대형 언어 모델의 세부적인 이미지 이해 능력을 향상시키기 위한 새로운 프레임워크를 제안한다. 이를 위해 기존 데이터셋의 주석을 활용하여 다양한 참조 이해 과제를 구축하고, 자기 일관성 부트스트래핑 방법을 통해 고품질의 데이터를 생성한다. 또한 시각 인코더를 효율적으로 미세 조정하여 세부적인 이미지 이해 능력을 향상시킨다.
다중 모달 대형 언어 모델은 관련 이미지에 의해 쉽게 손상될 수 있으며, 이를 해결하기 위해 MM-SafetyBench라는 포괄적인 평가 프레임워크를 소개한다.