Conceitos essenciais
이 논문은 비디오 의미 분할을 위해 지역 시간 맥락과 전역 시간 맥락을 동시에 학습하는 방법을 제안한다. 지역 시간 맥락은 인접 프레임의 정적 및 동적 정보를 통합하여 표현하고, 전역 시간 맥락은 전체 비디오의 정보를 활용하여 목표 프레임을 개선한다.
Resumo
이 논문은 비디오 의미 분할을 위한 지역 및 전역 시간 맥락 학습 방법을 제안한다.
지역 시간 맥락 학습:
- 인접 프레임의 정적 맥락과 동적 맥락을 통합적으로 학습하는 Coarse-to-Fine Feature Mining (CFFM) 기법을 제안
- CFFM은 Coarse-to-Fine Feature Assembling (CFFA)과 Cross-frame Feature Mining (CFM)으로 구성
- CFFA는 프레임 간 거리에 따라 다른 receptive field와 pooling 크기를 적용하여 정적 맥락과 동적 맥락을 모두 고려
- CFM은 목표 프레임 특징을 인접 프레임 특징으로 개선하는 비자기주의 주의 메커니즘을 사용
전역 시간 맥락 학습:
- 전체 비디오에서 대표적인 특징 프로토타입을 추출하고, CFM을 통해 목표 프레임 특징을 개선
- 지역 및 전역 시간 맥락 학습 결과를 가중 합산하여 최종 예측
실험 결과, 제안 방법인 CFFM와 CFFM++가 다양한 벤치마크에서 최신 기술 대비 우수한 성능을 보였다.
Estatísticas
인접 프레임 간 의미 마스크의 mIoU가 89.7%로 높아, 장면 변화가 크지 않음을 보여줌
제안 방법의 복잡도는 O(hwmc) + O(hwc^2)로, 기존 self-attention 복잡도 O((l+1)^2h^2w^2c)보다 훨씬 낮음
Citações
"비디오 세상은 실제로 정적이 아니라 동적이므로 비디오 의미 분할 연구가 필요하다."
"지역 시간 맥락은 인접 프레임의 맥락이고, 전역 시간 맥락은 전체 비디오의 맥락을 나타낸다."