핵심 개념
본 연구는 Segment Anything Model(SAM)의 인스턴스 분할 능력과 교사 모델의 의미 정보를 활용하여, 파노라마 이미지에 대한 경량 의미 분할 모델을 학습하는 새로운 프레임워크를 제안한다.
초록
본 논문은 파노라마 이미지에 대한 효율적인 의미 분할 모델을 학습하는 새로운 프레임워크인 GoodSAM을 제안한다. 파노라마 이미지는 왜곡과 넓은 시야각 특성으로 인해 기존 모델의 성능이 저하되는 문제가 있다. 이를 해결하기 위해 GoodSAM은 다음과 같은 핵심 기술을 제안한다:
- 왜곡 인지 및 경계 강화 모듈(DAR): 중첩 슬라이딩 윈도우 전략과 SAM의 경계 정보를 활용하여 교사 모델의 파노라마 이미지 분할 성능을 향상시킨다.
- 다중 수준 지식 전이 모듈(MKA): 교사 모델의 출력과 DAR 모듈에서 생성된 앙상블 로짓을 활용하여, 경량 학생 모델의 성능을 향상시킨다.
실험 결과, GoodSAM은 기존 최신 기법 대비 3.75% 향상된 성능을 보였으며, 가장 경량한 모델도 기존 최신 기법과 유사한 성능을 달성하였다. 이를 통해 GoodSAM이 파노라마 의미 분할을 위한 효율적인 프레임워크임을 입증하였다.
통계
파노라마 이미지의 왜곡으로 인해 기존 모델의 성능이 크게 저하됨(Segformer-B5: 27.62% mIoU, Segformer-B0: 15.88% mIoU).
제안한 DAR 모듈을 통해 교사 모델의 성능이 62.49% mIoU까지 향상됨.
제안한 MKA 모듈을 통해 학생 모델의 성능이 55.93% mIoU까지 향상됨.
인용구
"SAM의 인스턴스 분할 능력과 교사 모델의 의미 정보를 활용하여, 파노라마 이미지에 대한 경량 의미 분할 모델을 학습하는 새로운 프레임워크를 제안한다."
"DAR 모듈은 중첩 슬라이딩 윈도우 전략과 SAM의 경계 정보를 활용하여 교사 모델의 파노라마 이미지 분할 성능을 향상시킨다."
"MKA 모듈은 교사 모델의 출력과 DAR 모듈에서 생성된 앙상블 로짓을 활용하여, 경량 학생 모델의 성능을 향상시킨다."