본 논문에서는 비전 트랜스포머의 계산 복잡성을 줄이기 위해 토큰의 시맨틱 유사성을 기반으로 클러스터링하는 새로운 방법인 시맨틱 동등 클러스터링(SEC)을 제안합니다. SEC는 단일 패스로 토큰을 효율적으로 클러스터링하고 균등한 토큰 분포를 보장하여 GPU 병렬 처리에 효과적입니다. SEC를 기반으로 하는 SECViT는 이미지 분류, 객체 감지, 인스턴스 분할 및 시맨틱 분할과 같은 다양한 비전 작업에서 우수한 성능을 보여줍니다. 또한 SEC는 LLaVA와 같은 멀티모달 대형 언어 모델(MLLM)에 적용되어 비전 언어 연결자 역할을 하여 모델의 효율성을 높이면서 성능을 유지하거나 향상시킵니다.
고해상도 이미지에서 비전 트랜스포머(ViT)의 계산 복잡성을 줄이기 위해, 중요 픽셀을 선택적으로 처리하는 필터 어텐션 메커니즘을 갖춘 새로운 ViT 변형인 FilterViT를 소개합니다.
비전 트랜스포머를 사용한 뇌 인코딩 성능은 훈련 데이터셋 크기와 모델 크기에 크게 좌우되며, 특히 데이터셋 크기가 클수록 더욱 향상된 성능을 보인다.
비전 트랜스포머의 핵심 구성 요소인 멀티 헤드 셀프 어텐션(MHSA) 모듈에서 헤드들을 오버랩하면 각 헤드가 주변 헤드의 정보를 공유하여 더 풍부한 표현을 학습하고, 결과적으로 비전 트랜스포머의 성능을 향상시킬 수 있다.
본 논문에서는 이미지 분류 및 밀집 예측 작업을 위해 고안된 새로운 계층적 비전 트랜스포머인 Deformable Bi-level Routing Attention Transformer(DeBiFormer)를 제안합니다. DeBiFormer는 DBRA(Deformable Bi-level Routing Attention) 모듈을 통해 의미적으로 관련된 영역을 적응적으로 선택하면서 쿼리-키-값 상호 작용을 최적화하여 보다 효율적이고 의미 있는 주의를 가능하게 합니다.
본 논문에서는 비전 트랜스포머(ViT) 아키텍처가 충분한 훈련 데이터가 제공되더라도 ARC 작업에서 요구되는 추상적 시각적 추론을 위해서는 올바른 귀납적 편향이 필요하며, 2D 표현, 위치 정보, 객체 기반 인코딩을 통해 ViT의 성능을 향상시킬 수 있음을 보여줍니다.