회전 위치 임베딩(RoPE)은 언어 모델에서 뛰어난 성능을 보였지만, 비전 도메인에서의 효과는 충분히 검증되지 않았다. 본 연구는 비전 트랜스포머에 RoPE를 적용하여 그 효과를 종합적으로 분석하였으며, 특히 혼합 축 주파수를 사용하는 RoPE-Mixed 방식이 우수한 성능을 보였다.
회전 위치 임베딩(RoPE)은 언어 모델에서 뛰어난 성능을 보였지만, 비전 도메인에서의 효과는 충분히 검증되지 않았다. 이 연구는 비전 트랜스포머에 RoPE를 적용하여 다양한 비전 인식 작업에서의 성능 향상을 종합적으로 분석한다.