核心概念
본 연구는 의미론과 시간적 대응 정보를 통합하여 객체 중심 표현을 학습하는 새로운 자기 지도 학습 프레임워크를 제안한다. 의미론 분해와 인스턴스 식별을 위한 두 단계의 슬롯 어텐션 메커니즘을 통해 객체 인스턴스를 명시적으로 구분하고, 시간적 일관성을 활용하여 객체 중심 표현을 정제한다.
摘要
본 연구는 비디오 내 객체 인식 및 분할을 위해 의미론과 시간적 대응 정보를 통합하는 새로운 자기 지도 학습 프레임워크를 제안한다.
- 특징 인코딩:
- RGB 프레임에서 시각 특징을 추출하고, 프레임 간 특징 상관관계를 계산하여 시간적 대응 정보를 나타냄
- 의미론과 시간적 대응 정보를 융합하여 중간 표현을 생성
- 의미론-인지 마스크드 슬롯 어텐션:
- 학습 가능한 가우시안 분포를 활용하여 두 단계의 슬롯 어텐션을 수행
- 첫 번째 단계에서는 평균 벡터를 슬롯 초기화로 사용하여 의미론 분해
- 두 번째 단계에서는 각 의미론에 대해 가우시안 분포에서 무작위로 샘플링한 슬롯을 사용하여 인스턴스 식별
- 의미론 및 인스턴스 수준의 시간적 일관성을 활용하여 객체 중심 표현을 정제
- 실험 결과:
- 단일 및 다중 객체 발견 벤치마크에서 우수한 성능 달성
- 레이블 전파 작업에서 최신 기술 수준 달성
- 의미론 분해와 인스턴스 식별의 상호 보완성 확인
统计
비디오 내 객체 인스턴스의 수는 시간에 따라 변화할 수 있다.
작은 객체의 경계를 정확하게 생성하는 것이 어렵다.
引用
"우리의 직관은 상위 수준의 의미론이 상향식으로 개별 객체를 구분하고, 하위 수준의 시간적 대응이 하향식으로 의미론적 구조를 보완한다는 것이다."
"우리는 의미론과 시간적 대응을 명시적으로 통합하여 객체 중심 표현을 학습하는 새로운 자기 지도 학습 프레임워크를 제안한다."