이 논문은 비전-언어 모델(VLM)의 압축 및 성능 복구 방법을 제안한다.
먼저, 저자들은 비전 모델과 언어 모델의 희소성 비율 분포가 VLM의 성능에 미치는 영향을 실험적으로 분석했다. 이를 통해 비전 모델과 언어 모델의 희소성 비율을 동일하게 유지하는 것이 최적의 성능을 보인다는 것을 발견했다.
그러나 VLM을 압축하면 성능이 크게 저하되는 문제가 발생한다. 이를 해결하기 위해 저자들은 RESSA(Repair Sparse Vision-Language Models via Sparse Cross-Modality Adaptation)를 제안했다. RESSA는 두 가지 목표를 가지고 있다:
이를 위해 RESSA는 크로스-모달리티 미세조정과 SparseLoRA 기법을 활용한다. SparseLoRA는 LoRA 모듈의 희소성을 유지하여 압축된 모델의 성능 저하를 방지한다.
실험 결과, RESSA는 다양한 VLM 아키텍처와 압축 패턴에서 효과적으로 성능을 복구할 수 있음을 보여주었다. 예를 들어, InstructBLIP-Vicuna-7B 모델에서 2:4 구조적 희소성 하에서 11.3% 성능 향상을 달성했다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Shwai He,Tia... a las arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02424.pdfConsultas más profundas