본 논문에서는 비전 트랜스포머(ViT)의 계산 복잡성을 줄이면서 성능을 향상시키는 새로운 토큰 클러스터링 방법인 시맨틱 동등 클러스터링(SEC)을 제안합니다. SEC는 기존의 공간적 분할 기반 방법과 달리 토큰의 시맨틱 정보를 활용하여 클러스터링을 수행합니다.
ViT는 강력한 성능을 보이지만, 전역적 self-attention 메커니즘으로 인해 계산 복잡성이 높다는 단점이 있습니다. 이를 해결하기 위해 토큰을 그룹화하여 self-attention 범위를 제한하는 방법들이 제안되었지만, 이러한 방법들은 토큰의 공간적 위치 정보만을 고려하고 시맨틱 정보를 무시하여 성능 저하를 야기할 수 있습니다.
SEC는 다음과 같은 세 가지 주요 장점을 가지고 있습니다.
SEC를 기반으로 하는 SECViT는 4단계의 다운샘플링 구조를 가지며, 각 블록은 CPE, SEC 기반 Self-Attention, FFN으로 구성됩니다. SECViT는 이미지 분류, 객체 감지, 인스턴스 분할, 시맨틱 분할 등 다양한 비전 작업에 적용 가능합니다.
SECViT는 ImageNet-1K 이미지 분류에서 최대 86.3%의 정확도를 달성하며 기존 모델 대비 우수한 성능을 보입니다. 또한 객체 감지, 인스턴스 분할, 시맨틱 분할에서도 SECViT는 다른 백본 모델보다 뛰어난 성능을 나타냅니다.
SEC는 LLaVA와 같은 MLLM의 비전 언어 연결자로도 활용될 수 있습니다. SEC를 통해 비전 토큰을 클러스터링하고 각 클러스터의 해당 위치에 있는 모든 토큰을 병합하여 단일 토큰으로 만들어 LLaVA-1.5의 효율성을 높이고 성능을 향상시킵니다.
본 논문에서 제안된 SEC는 ViT의 계산 복잡성을 줄이고 성능을 향상시키는 효과적인 방법입니다. SECViT는 다양한 비전 작업에서 우수한 성능을 보이며, MLLM에도 성공적으로 적용될 수 있습니다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы