Alapfogalmak
고해상도 이미지에서 비전 트랜스포머(ViT)의 계산 복잡성을 줄이기 위해, 중요 픽셀을 선택적으로 처리하는 필터 어텐션 메커니즘을 갖춘 새로운 ViT 변형인 FilterViT를 소개합니다.
Kivonat
FilterViT 및 DropoutViT: 효율적인 어텐션 메커니즘을 위한 경량 비전 트랜스포머 모델
본 연구에서는 고해상도 이미지에서 비전 트랜스포머(ViT)의 계산 복잡성을 해결하기 위해 FilterViT라는 새로운 ViT 변형 모델을 제안합니다. ViT는 이미지 인식 작업에 혁신을 가져왔지만, 고해상도 이미지에 적용할 경우 많은 토큰으로 인해 계산량이 많아지는 문제점이 있습니다. 이를 해결하기 위해, 본 연구에서는 다운샘플링 초기 단계에서 어텐션 기반 QKV 연산을 수행하는 향상된 MobileViT 변형 모델을 제안합니다.
고해상도 특징 맵에서 QKV 연산의 비효율성
고해상도 특징 맵에서 직접 QKV 연산을 수행하는 것은 큰 크기와 많은 토큰으로 인해 계산 집약적입니다. 이 문제를 해결하기 위해, 본 연구에서는 합성곱 신경망(CNN)을 사용하여 어텐션 계산에 가장 유용한 픽셀을 선택하는 중요도 마스크(필터 마스크)를 생성하는 필터 어텐션 메커니즘을 도입합니다.
필터 어텐션 메커니즘
CNN은 특징 맵의 픽셀 점수를 매기고, 상위 K개 픽셀(K는 네트워크 계층마다 다름)을 선택하기 위해 이러한 점수를 정렬합니다. 이 방법은 어텐션 계산에 포함되는 토큰 수를 효과적으로 줄여 계산 복잡성을 낮추고 처리 속도를 높입니다. 또한, 중요도 마스크는 모델이 결과에 중요한 이미지 영역에 더 집중하기 때문에 해석 가능성을 제공합니다.
FilterViT 아키텍처
제안된 FilterViT 아키텍처는 CNN과 트랜스포머 계층을 결합하여 로컬 특징 추출과 글로벌 어텐션 간의 균형을 맞춥니다. 핵심은 특징 맵의 픽셀을 트랜스포머 인코더의 토큰으로 취급하지만, 모든 토큰을 처리하는 대신 필터 마스크를 적용하여 가장 중요한 토큰만 선택한다는 것입니다.
필터 어텐션 블록
FilterViT의 핵심은 CNN 블록과 트랜스포머 인코더를 통합하는 필터 어텐션 블록입니다. 먼저 이미지가 CNN 모듈을 통과하여 특징 맵(Xf)을 생성합니다. CNN은 또한 각 픽셀에 중요도 점수를 할당하는 필터 마스크(M)를 생성합니다. 그런 다음 특징 맵에 마스크를 요소별로 곱하여 덜 중요한 토큰을 필터링합니다. 필터링된 토큰은 트랜스포머 인코더를 통과하여 출력(X't)을 생성합니다.
장점
실험 결과, FilterViT는 정확도를 향상시키면서 매개변수 효율성과 계산 속도 면에서 이점을 달성하는 것으로 나타났습니다. 다른 모델과 비교하여, 본 연구의 접근 방식은 높은 성능을 유지하면서 계산 리소스 소비를 크게 줄입니다. 또한, 중요도 마스크를 통해 모델이 어텐션 중에 이미지의 중요한 영역을 효과적으로 강조하는 것을 보여줌으로써 해석 가능성을 제공합니다.