Core Concepts
VIT-LENS는 사전 학습된 ViT 모델을 활용하여 3D 포인트 클라우드, 깊이, 오디오, 촉각, EEG 등 다양한 모달리티에 대한 효과적인 표현 학습을 가능하게 한다.
Abstract
VIT-LENS는 사전 학습된 ViT 모델을 활용하여 다양한 모달리티에 대한 효과적인 표현 학습을 가능하게 한다. 구체적으로:
- 모달리티 특화 렌즈(Lens)와 모달리티 임베딩 모듈을 통해 입력 데이터를 중간 표현 공간으로 변환한다.
- 사전 학습된 ViT 모델을 활용하여 이 중간 표현을 최종 표현으로 인코딩한다.
- 오프더셀프 파운데이션 모델을 활용하여 이 최종 표현을 모달리티 독립적인 공간에 정렬한다.
이를 통해 VIT-LENS는 다음과 같은 장점을 제공한다:
- 사전 학습된 ViT 모델의 지식을 효과적으로 활용하여 적은 파라미터와 데이터로도 다양한 모달리티에 대한 표현 학습이 가능
- 모달리티 정렬을 통해 멀티모달 파운데이션 모델에 통합되어 다양한 모달리티에 대한 응용 기능 확장
VIT-LENS는 3D 포인트 클라우드, 깊이, 오디오, 촉각, EEG 등 다양한 모달리티에 대해 실험을 진행하였으며, 다양한 이해 과제에서 최신 성능을 달성하였다. 또한 VIT-LENS를 멀티모달 파운데이션 모델에 통합하여 모달리티 독립적인 캡셔닝, 질의응답, 이미지 생성 등의 기능을 확장할 수 있음을 보였다.
Stats
3D 포인트 클라우드 데이터셋 Objaverse-LVIS에서 VIT-LENS는 50.1%의 제로샷 분류 정확도를 달성하여 이전 최고 성과 대비 11.0% 향상
깊이 데이터셋 SUN-D에서 VIT-LENS는 52.2%의 제로샷 분류 정확도를 달성하여 이전 최고 성과 대비 17.3% 향상
오디오 데이터셋 Audioset에서 VIT-LENS는 26.7%의 mAP를 달성하여 이전 최고 성과 대비 0.8% 향상
촉각 데이터셋 Touch-and-go에서 VIT-LENS는 재질 분류 정확도 65.8%를 달성하여 이전 최고 성과 대비 11.1% 향상
EEG 데이터셋 ImageNet-EEG에서 VIT-LENS는 42.7%의 분류 정확도를 달성하여 이전 최고 성과 대비 23.5% 향상
Quotes
"VIT-LENS는 사전 학습된 ViT 모델의 지식을 효과적으로 활용하여 적은 파라미터와 데이터로도 다양한 모달리티에 대한 표현 학습이 가능하게 한다."
"VIT-LENS를 멀티모달 파운데이션 모델에 통합하면 모달리티 독립적인 캡셔닝, 질의응답, 이미지 생성 등의 기능을 확장할 수 있다."