Alapfogalmak
대형 커널 컨볼루션 신경망의 새로운 아키텍처 설계 지침을 제안하고, 이를 통해 이미지 인식 및 다양한 모달리티에서 최첨단 성능을 달성하는 범용 모델을 개발했다.
Kivonat
이 논문은 대형 커널 컨볼루션 신경망(ConvNet)의 새로운 아키텍처 설계 지침을 제안하고, 이를 바탕으로 개발한 범용 모델 UniRepLKNet의 성능을 보여준다.
대형 커널 ConvNet의 아키텍처 설계 지침:
채널 간 통신과 공간 집계를 모두 수행하는 효율적인 구조를 사용하여 모델 깊이를 증가시킨다.
희소 패턴 추출을 위해 확장된 수용영역을 가진 대형 커널을 재매개변수화한다.
하위 및 중위 레이어에 대형 커널을 사용하고, 깊이 증가 시 소형 커널을 추가한다.
UniRepLKNet 모델:
제안한 설계 지침을 따라 구축된 범용 모델로, 이미지 인식, 객체 탐지, 의미 분할 등의 태스크에서 최첨단 성능을 달성했다.
오디오, 비디오, 시계열 등 다양한 모달리티에서도 뛰어난 성능을 보였다. 이는 ConvNet이 변환기를 능가하는 범용 인지 능력을 가질 수 있음을 시사한다.
Statisztikák
이미지 인식 태스크에서 UniRepLKNet-XL은 88.0%의 ImageNet 정확도를 달성했다.
의미 분할 태스크에서 UniRepLKNet-XL은 ADE20K 데이터셋에서 55.6%의 mIoU를 달성했다.
객체 탐지 태스크에서 UniRepLKNet-XL은 COCO 데이터셋에서 56.4%의 box AP를 달성했다.
시계열 예측 태스크에서 UniRepLKNet-S는 글로벌 온도 및 풍속 예측에서 최신 최고 성능을 달성했다.
Idézetek
"대형 커널 ConvNet의 아키텍처 설계는 아직 충분히 탐구되지 않았다."
"우리는 대형 커널의 본질적인 특성을 활용하여 새로운 아키텍처 설계 지침을 제안한다."
"UniRepLKNet은 이미지 인식뿐만 아니라 오디오, 비디오, 시계열 등 다양한 모달리티에서 뛰어난 범용 인지 능력을 보여준다."