핵심 개념
비전-언어 모델의 성능 저하를 해결하기 위해 크로스-모달리티 적응과 SparseLoRA 미세조정을 통해 압축된 모델의 성능을 복구한다.
초록
이 논문은 비전-언어 모델(VLM)의 압축 및 성능 복구 방법을 제안한다.
먼저, 저자들은 비전 모델과 언어 모델의 희소성 비율 분포가 VLM의 성능에 미치는 영향을 실험적으로 분석했다. 이를 통해 비전 모델과 언어 모델의 희소성 비율을 동일하게 유지하는 것이 최적의 성능을 보인다는 것을 발견했다.
그러나 VLM을 압축하면 성능이 크게 저하되는 문제가 발생한다. 이를 해결하기 위해 저자들은 RESSA(Repair Sparse Vision-Language Models via Sparse Cross-Modality Adaptation)를 제안했다. RESSA는 두 가지 목표를 가지고 있다:
- 태스크 특화 성능 향상: 압축된 VLM의 태스크 성능을 향상시킨다.
- 원본 모델과의 지식 증류: 압축된 모델이 원본 모델의 지식을 효과적으로 전달받도록 한다.
이를 위해 RESSA는 크로스-모달리티 미세조정과 SparseLoRA 기법을 활용한다. SparseLoRA는 LoRA 모듈의 희소성을 유지하여 압축된 모델의 성능 저하를 방지한다.
실험 결과, RESSA는 다양한 VLM 아키텍처와 압축 패턴에서 효과적으로 성능을 복구할 수 있음을 보여주었다. 예를 들어, InstructBLIP-Vicuna-7B 모델에서 2:4 구조적 희소성 하에서 11.3% 성능 향상을 달성했다.
통계
비전 모델과 언어 모델의 희소성 비율을 동일하게 유지하면 최적의 성능을 보인다.
압축된 VLM의 성능은 크게 저하되며, 특히 구조적 희소성 패턴에서 더 큰 성능 저하가 발생한다.
RESSA는 2:4 구조적 희소성에서 InstructBLIP-Vicuna-7B 모델의 성능을 11.3% 향상시켰다.
RESSA는 70% 무작위 희소성에서 InstructBLIP-FlanT5XL 모델의 성능을 47.6% 향상시켰다.
인용구
"VLMs, comprising large-scale vision and language models poses challenges in resource-constrained scenarios."
"While pruning followed by finetuning offers a potential solution to maintain performance with smaller model sizes, its application to VLMs remains relatively unexplored."
"RESSA utilizes cross-modality finetuning to enhance task-specific performance and facilitate knowledge distillation from original dense models."