이 논문은 비디오 의미 분할을 위해 지역 시간 맥락과 전역 시간 맥락을 동시에 학습하는 방법을 제안한다. 지역 시간 맥락은 인접 프레임의 정적 및 동적 정보를 통합하여 표현하고, 전역 시간 맥락은 전체 비디오의 정보를 활용하여 목표 프레임을 개선한다.