Основные понятия
VL-Cache는 비전-언어 모델(VLM)의 추론 속도를 높이기 위해 KV 캐시의 크기를 줄이면서도 정확도를 유지하는 새로운 압축 기법입니다.
Аннотация
VL-Cache: 비전-언어 모델 추론 가속화를 위한 희소성 및 모달리티 인식 KV 캐시 압축 연구 논문 요약
Dezhan Tu, Danylo Vashchilenko, Yuzhe Lu, Panpan Xu. (2024). VL-Cache: Sparsity and Modality-Aware KV Cache Compression for Vision-Language Model Inference Acceleration. arXiv preprint arXiv:2410.23317v1
본 연구는 이미지 및 비디오와 같은 긴 시각적 맥락을 처리하는 데 필요한 대규모 KV 캐시를 효율적으로 저장하고 접근하여 비전-언어 모델(VLM)의 추론 속도를 향상시키는 것을 목표로 합니다.