이 연구는 다중 모달 대규모 언어 모델(MLLM)의 전역 및 지역 의미 표현 능력을 탐구한다.
이미지-텍스트 함의 과제를 통해 MLLM의 전역 다중 모달 정보 인코딩 능력을 조사한 결과, 상위 층보다 중간 층의 표현 벡터가 더 나은 성능을 보였다. 이는 상위 층이 다음 토큰 생성에 필요한 지역 정보에 과도하게 집중하기 때문인 것으로 보인다.
객체 인식 과제를 통한 지역 표현 탐구에서도 유사한 결과를 확인했다. 상위 층은 지역 정보에 집중하여 전역 정보 인코딩 능력이 감소하는 것으로 나타났다.
이러한 발견은 MLLM의 사전 학습 과정에서 전역 의미 정보 인코딩을 개선할 필요가 있음을 시사한다. 또한 MLLM 아키텍처 설계 개선에도 도움이 될 것으로 기대된다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies