생체분자 및 자연어를 통한 다중 모달 학습의 중요성과 잠재력
본 논문에서는 구체적인 개념에서 추상적인 개념을 학습하는 다중 모달 생성 모델을 제안하며, 이 모델은 시각 및 언어 정보를 통합하여 계층적 개념 학습을 가능하게 하고, 언어 이해 및 생성 능력을 보여줍니다.
이 논문에서는 저차원 운동 특징을 활용하여 다중 모달 대규모 언어 모델(MLLM)의 시간적 근거 능력을 향상시키고 긴 형식의 비디오 이해를 위한 시간적 컨텍스트 범위를 넓히는 새로운 프레임워크인 Temporal Grounding Bridge(TGB)를 제안합니다.
CSA는 제한된 데이터로 다중 모달 인코더를 복제하기 위해 두 개의 단일 모달 인코더를 사용하는 새로운 방법으로, 방대한 GPU 기반 모델 학습 없이도 CLIP와 같은 모델의 성능을 능가하거나 이에 필적하는 성능을 달성합니다.