Khái niệm cốt lõi
본 논문에서는 다양한 형태의 로봇에서 클래스 불가지론적 비디오 분할 성능을 향상시키기 위해 대규모 데이터셋을 생성하는 방법과 이를 통해 생성된 MVPd 데이터셋을 소개하고, 로봇 구현 방식을 데이터 생성 프로세스에 고려했을 때 기존 분할 모델의 성능 향상 가능성을 검증합니다.
Tóm tắt
클래스 불가지론적 RGB-D 비디오 분할을 위한 구성 가능한 구현 데이터 생성 (대규모 데이터셋 MVPd 소개 및 벤치마킹 결과 포함)
본 연구는 다양한 형태의 로봇에 적용 가능한 클래스 불가지론적 비디오 분할 모델의 성능 향상을 목표로, 로봇 구현 방식을 고려한 대규모 데이터셋 생성 방법을 제안하고, 이를 통해 생성된 데이터셋(MVPd)을 활용한 벤치마킹 결과를 제시합니다.
1. 대규모 데이터셋 (MVPd) 생성 및 파이프라인 구축
HM3DSem 데이터셋의 3D 재구성 환경을 활용하여 실제 환경과 유사한 가상 환경 구축
로봇의 센서 유형, 위치, 조명 조건 등 구현 방식을 고려한 다양한 환경 구성
각 환경에서 수집한 RGB-D 비디오 데이터와 6DoF 포즈, 세그멘테이션 마스크 정보를 포함한 대규모 데이터셋 (MVPd) 구축
2. 클래스 불가지론적 비디오 인스턴스 분할 작업 정의 및 평가 지표 제시
입력 비디오 프레임에서 객체 인스턴스들을 클래스 구분 없이 분할하는 작업 정의
기존 VPS 평가 지표를 변형하여 예측 분할 간 겹침 허용하는 VSQ 평가 지표 제안
3. FastSAM 모델 기반의 FastSPAM 모델 제안 및 성능 비교
기존 이미지 분할 모델(SAM, FastSAM)과 비디오 분할 모델(Video K-Net, Tube-Link, OV2Seg) 간 성능 비교
3D 공간 정보(깊이, 카메라 포즈)를 활용한 자기 프롬프팅 기법 적용한 FastSPAM 모델 제안 및 성능 비교
4. 센서 위치, 조명 등 로봇 구현 방식에 따른 모델 성능 영향 분석
다양한 센서 높이(1m, 0.1m)에서 수집된 데이터를 활용하여 모델 성능 비교
조명 조건 변화에 따른 모델 성능 변화 분석