Concepts de base
MoAI는 외부 컴퓨터 비전 모델의 출력을 활용하여 실세계 장면 이해 능력을 향상시키고, 이를 통해 다양한 비전 언어 작업에서 뛰어난 성능을 달성한다.
Résumé
MoAI는 대규모 언어 및 비전 모델(LLVM)의 새로운 접근법을 제시한다. 기존 LLVM은 대규모 언어 모델(LLM) 백본의 대용량과 잠재적 기능에 주로 의존했지만, MoAI는 외부 컴퓨터 비전(CV) 모델의 출력을 활용하여 실세계 장면 이해 능력을 향상시킨다.
MoAI는 두 가지 새로운 모듈을 도입한다:
- MoAI-Compressor: 외부 CV 모델의 출력을 언어화하고 정렬하여 효율적으로 활용할 수 있도록 한다.
- MoAI-Mixer: 비주얼 특징, 보조 특징(외부 CV 모델 출력), 언어 특징을 혼합하여 통합한다.
이를 통해 MoAI는 객체 존재, 위치, 관계, 광학 문자 인식 등 실세계 장면 이해와 관련된 다양한 비전 언어 작업에서 기존 LLVM을 크게 능가한다. 또한 추가적인 비주얼 지도 학습 데이터셋 구축이나 모델 크기 확장 없이도 이러한 성과를 달성한다.
Stats
이미지에는 경계 상자 좌표와 객체가 포함되어 있습니다: [0.00, 0.00, 0.41, 0.28] 하늘, [0.11, 0.26, 0.20, 0.75] 사람, [0.93, 0.52, 1.00, 0.87] 잔디, [0.00, 0.00, 1.00, 0.53] 나무, [0.28, 0.29, 0.37, 0.69] 사람, [0.39, 0.07, 0.97, 0.97] 트럭.
이미지에는 경계 상자 좌표와 객체가 포함되어 있습니다: [0.64, 0.12, 0.78, 0.17] 깃발, [0.61, 0.11, 0.63, 0.30] 깃대, [0.42, 0.16, 0.46, 0.23] 조각상, [0.31, 0.26, 0.55, 0.39] 시계.
이미지에는 텍스트 설명이 포함되어 있습니다: WILLIAM, "520%", MILLER, THE, PONZIFILES, V.G.Oltmann, The Fraud Chronicles.
이미지에는 객체 간 관계가 포함되어 있습니다: 건물이 나무 옆에 있고, 잔디가 나무에 붙어 있고, 소가 잔디 위에 있고, 소가 잔디 위에 누워 있습니다.
Citations
"이미지에는 경계 상자 좌표와 객체가 포함되어 있습니다."
"이미지에는 텍스트 설명이 포함되어 있습니다."
"이미지에는 객체 간 관계가 포함되어 있습니다."