Core Concepts
부분적으로 관측된 실내 공간에 대해 실시간으로 3D 점유 정보를 예측하는 확산 모델 프레임워크를 제안한다.
Abstract
이 논문은 로봇 플랫폼이 실내 공간을 탐색할 때 부분적으로 관측된 영역의 3D 점유 정보를 실시간으로 예측하는 확산 모델 기반의 프레임워크인 SceneSense를 제안한다.
주요 내용은 다음과 같다:
단일 RGB-D 카메라와 제한된 학습 데이터를 사용하여 가려진 영역이나 시야 밖의 기하학적 구조를 효과적으로 추론할 수 있는 확산 모델 기반의 프레임워크를 제안한다.
관측된 점유 및 비점유 공간을 보존하는 점유 인페인팅 기법을 도입하여 예측 결과가 관측된 공간을 침범하지 않도록 한다.
다양한 실험을 통해 제안 방법의 성능을 평가하고, 입력 데이터, 디노이징 단계 수, 가이드 스케일 등 다양한 하이퍼파라미터의 영향을 분석한다.
정량적 평가 지표인 FID와 KID를 사용하여 제안 방법이 기존 방법 대비 더 나은 성능을 보임을 입증한다.
Stats
로봇 플랫폼이 탐색하는 동안 관측된 점유 정보는 시간이 지남에 따라 증가한다.
새로운 공간으로 진입할 때마다 관측된 점유 정보가 크게 증가한다.
관측된 점유 정보가 증가할수록 SceneSense의 예측 성능이 향상된다.
Quotes
"인간은 익숙한 환경에서 '상식적' 추론을 통해 성공적으로 세계와 상호작용할 수 있지만, 로봇은 직접 측정된 데이터만으로 의사결정을 내릴 수 있다."
"이 연구에서는 최근 AI 시스템의 발전을 활용하여 가려진 또는 시야 밖의 기하학적 구조를 예측할 수 있는 솔루션을 제안한다."