핵심 개념
큰 시각-언어 모델을 엣지 디바이스에 효율적으로 적응시키는 새로운 방법 소개
초록
최근 Vision-Language (VL) 모델의 발전으로 엣지 디바이스에 배치되는 것에 대한 관심이 증가함
EdgeVL은 대규모 VL 모델을 엣지 디바이스에 효율적으로 적응시키기 위한 새로운 프레임워크 소개
이 방법은 듀얼 모달리티 지식 증류와 양자화 인식 대조 학습을 통합하여 다양한 시각 모달리티를 처리하고 효율적인 사용을 가능하게 함
EdgeVL은 엣지 디바이스에서 대규모 VL 모델의 정확도 향상과 모델 크기의 93배 축소를 보여줌
통계
EdgeVL은 엣지 디바이스에서 최대 15.4%의 정확도 향상과 모델 크기의 93배 축소를 보여줌
인용구
"EdgeVL은 대규모 VL 모델을 엣지 디바이스에 효율적으로 적응시키기 위한 첫 번째 프레임워크입니다."
"EdgeVL은 엣지 디바이스에서 다양한 시각 모달리티를 처리하고 수동 주석 없이 사용할 수 있는 방법을 소개합니다."