이 논문은 다중 모달 대형 언어 모델(MLLM)에서 발생하는 과제 간 간섭 문제를 해결하기 위한 새로운 프레임워크 Octavius를 제안한다.
먼저, 저자들은 MLLM에서 과제 간 간섭 문제가 심각하게 발생함을 실험을 통해 확인한다. 이를 해결하기 위해 Mixture-of-Experts(MoE)와 LoRA 기법을 결합한 LoRA-MoE 디코더를 제안한다. LoRA-MoE는 각 과제에 특화된 LoRA 전문가들을 동적으로 선택하여 활성화함으로써 과제 간 간섭을 완화한다.
또한 저자들은 이미지와 3D 포인트 클라우드 모달리티를 모두 활용할 수 있는 Object-As-Scene이라는 새로운 3D 인코더를 제안한다. Object-As-Scene은 객체 단위 특징과 전체 장면 단위 특징을 효과적으로 결합하여 3D 시각 정보를 언어 모델에 잘 전달할 수 있다.
실험 결과, Octavius 프레임워크는 다양한 2D 및 3D 과제에서 약 20% 향상된 성능을 보였다. 이를 통해 LoRA-MoE와 Object-As-Scene이 MLLM의 과제 간 간섭 문제를 효과적으로 해결할 수 있음을 입증하였다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések