toplogo
Sign In

압축 비용 절감을 위한 비전 트랜스포머의 단일 단계 중요도 및 희소성 탐색


Core Concepts
본 연구는 비전 트랜스포머 압축을 위해 중요도와 희소성 점수를 동시에 평가하는 단일 단계 탐색 기법을 제안한다. 이를 통해 기존 두 단계 방식의 한계를 극복하고 압축 성능과 효율성을 향상시킬 수 있다.
Abstract
본 연구는 비전 트랜스포머 압축을 위한 새로운 접근법을 제안한다. 기존의 비전 트랜스포머 압축 기법은 두 단계로 구성되어 있었는데, 첫 번째 단계에서 각 모델 단위의 중요도 점수를 평가하고, 두 번째 단계에서 희소성 점수를 평가하였다. 이러한 분리된 평가 과정으로 인해 중요도와 희소성 점수 분포 간의 격차가 발생하여 높은 탐색 비용이 발생하였다. 본 연구에서는 처음으로 중요도와 희소성 점수 평가를 단일 단계에서 통합하는 방법을 제안한다. 구체적으로: 중요도 점수와 차등화 가능한 희소성 점수를 결합한 이중 마스크 기법을 개발하여 각 단위의 가지치기 가능성을 동시에 결정한다. 적응형 one-hot 손실 함수를 제안하여 연속적인 이중 마스크 점수를 이진 점수로 점진적으로 변환한다. 점진적 마스크드 이미지 모델링(PMIM) 기법을 도입하여 차원 축소로 인한 특징 공간의 대표성 저하를 완화한다. 실험 결과, 제안 방법은 다양한 비전 트랜스포머 아키텍처에서 기존 탐색 및 가지치기 기반 방법들을 능가하는 압축 성능을 달성하였으며, 특히 DeiT-S 모델 압축에서 1 GPU 탐색일 만에 우수한 성능을 달성하였다.
Stats
제안 방법은 DeiT-S 모델에서 약 80%의 FLOPs와 파라미터 감소를 달성하면서도 4.8%의 Top-1 정확도 하락만 보였다. 제안 방법은 DeiT-B 모델에서 50%의 FLOPs와 파라미터 감소를 달성하면서도 0.1%의 Top-1 정확도 하락만 보였다. 제안 방법은 Swin-Ti 모델에서 약 80%의 FLOPs와 파라미터 감소를 달성하면서도 4.8%의 Top-1 정확도 하락만 보였다.
Quotes
"본 연구는 처음으로 비전 트랜스포머 압축을 위해 중요도와 희소성 점수 평가를 단일 단계에서 통합하는 방법을 제안한다." "제안 방법은 다양한 비전 트랜스포머 아키텍처에서 기존 탐색 및 가지치기 기반 방법들을 능가하는 압축 성능을 달성하였다." "제안 방법은 DeiT-S 모델 압축에서 1 GPU 탐색일 만에 우수한 성능을 달성하였다."

Key Insights Distilled From

by Hancheng Ye,... at arxiv.org 03-26-2024

https://arxiv.org/pdf/2403.15835.pdf
Once for Both

Deeper Inquiries

질문 1

다른 비전 트랜스포머 압축 접근법에는 TAS(Transformer Architecture Search)와 TP(Transformer Pruning)이 있습니다. TAS는 단계적으로 슈퍼넷을 훈련하고 최적의 서브넷을 찾는 방식을 따르며, TP는 중요도 점수를 미리 평가하고 희소성 검색을 수행하는 방식입니다. 또한, TAS는 SPOS NAS(Single-Path-One-Shot NAS) 방식을 사용하여 중요도 점수를 암묵적으로 인코딩하고 최적의 서브넷을 찾습니다. 반면, TP는 임계값 기반 가지치기 방식을 사용하여 중요도 점수를 평가하고 희소성 검색을 수행합니다.

질문 2

중요도와 희소성 점수 간의 관계를 다른 방식으로 모델링하기 위해 OFB 방법은 중요도와 희소성 점수를 동시에 학습하고 결합하는 방식을 제안합니다. 이를 위해 OFB는 중요도 점수와 희소성 점수를 함께 고려하는 바이-마스크 가중치 공유 전략을 도입하고 적응형 원-핫 손실 함수를 사용하여 연속적인 바이-마스크 점수를 이진화하여 최적의 서브넷을 찾습니다. 이를 통해 중요도와 희소성 점수를 동시에 최적화하고 중요도와 희소성 분포를 조화롭게 만들어 모델의 압축 성능을 향상시킵니다.

질문 3

본 연구의 접근법을 다른 신경망 구조에 적용하면 비슷한 성과를 기대할 수 있습니다. OFB 방법은 중요도와 희소성 점수를 동시에 고려하여 최적의 서브넷을 찾는 효율적인 방법을 제시하며, 다른 비전 트랜스포머 구조에 적용할 경우에도 높은 압축 성능과 검색 효율성을 기대할 수 있습니다. 이 방법은 다양한 비전 트랜스포머 아키텍처에서 우수한 성능을 보여주며, 다른 신경망 구조에도 적용할 경우 비슷한 결과를 얻을 것으로 예상됩니다.
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star