이 논문은 이미지 복원을 위한 새로운 트랜스포머 기반 모델인 HIT(High-frequency Injected Transformer)를 제안한다.
HIT는 CNN 기반 특징 추출기를 사용하여 고주파 정보를 캡처하고, 이를 트랜스포머 아키텍처에 주입한다. 이를 통해 장거리 의존성과 지역 정보를 모두 효과적으로 활용할 수 있다.
창 단위 주입 모듈(WIM)을 개발하여 특징 맵의 개별 창에 고주파 정보를 주입한다. 이를 통해 깊은 층에서도 유용한 지역 정보를 유지할 수 있다.
양방향 상호작용 모듈(BIM)을 개발하여 다른 규모의 특징을 통합하고, 공간적으로 그리고 의미적으로 향상된 표현을 생성한다.
공간 강화 유닛(SEU)을 도입하여 BIM에서 발생할 수 있는 공간 정보 손실을 방지한다.
9가지 이미지 복원 작업에서 HIT가 우수한 성능을 보이며, 계산 복잡도 또한 선형적으로 유지한다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Shihao Zhou,... في arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00279.pdfاستفسارات أعمق