Core Concepts
박스 주석만으로도 고성능 비디오 인스턴스 분할이 가능하다. 이를 위해 다양한 모델을 활용해 고품질 가짜 마스크를 생성하고, 이를 활용해 모델을 학습하는 PM-VIS 알고리즘을 제안한다.
Abstract
이 논문은 박스 주석만으로도 고성능 비디오 인스턴스 분할이 가능한 PM-VIS 알고리즘을 제안한다.
첫째, 3가지 모델(HQ-SAM, IDOL-BoxInst, DeAOT)을 활용해 고품질 가짜 마스크를 생성한다. HQ-SAM-masks는 HQ-SAM 모델을 통해 생성되며, IDOL-BoxInst-masks는 박스 감독 IIS 모델 BoxInst와 VIS 모델 IDOL을 결합한 IDOL-BoxInst 모델을 통해 생성된다. Track-masks는 IDOL-BoxInst-masks의 고품질 가짜 마스크를 초기화 값으로 사용해 DeAOT 모델로 추적한 결과이다.
둘째, SCM, DOOB, SHQM 전략을 통해 고품질 가짜 마스크를 선별한다. SCM은 HQ-SAM-masks와 gtboxes를 활용해 IDOL-BoxInst-masks의 품질을 향상시킨다. DOOB는 HQ-SAM-masks와 IDOL-BoxInst-masks의 오버랩과 경계 밖 영역을 제거한다. SHQM은 3가지 가짜 마스크 중 가장 높은 품질의 마스크를 선택한다.
셋째, 생성된 고품질 가짜 마스크를 활용해 PM-VIS 모델을 학습한다. PM-VIS는 IDOL-BoxInst에 마스크 손실을 추가한 모델로, 박스 주석과 가짜 마스크를 함께 활용한다. 실험 결과, PM-VIS는 YTVIS2019, YTVIS2021, OVIS 데이터셋에서 SOTA 성능을 달성했다.
넷째, 고품질 가짜 마스크를 활용해 ground-truth 데이터를 필터링하는 Missing-Data와 RIA 방법을 제안했다. 이를 통해 fully supervised PM-VIS 모델의 성능도 향상되었다.
Stats
박스 주석만으로도 PM-VIS 모델이 YTVIS2019에서 48.7%, YTVIS2021에서 44.6%, OVIS에서 27.8%의 Mask AP를 달성했다.
필터링된 ground-truth 데이터로 학습한 fully supervised PM-VIS 모델이 IDOL 모델을 능가하는 성능을 보였다.
Quotes
"박스 주석만으로도 고성능 비디오 인스턴스 분할이 가능하다."
"고품질 가짜 마스크를 활용해 모델을 학습하면 SOTA 성능을 달성할 수 있다."
"고품질 가짜 마스크를 활용해 ground-truth 데이터를 필터링하면 fully supervised 모델의 성능도 향상된다."