Core Concepts
확산 모델을 활용하여 로봇이 타인의 관점에서 관찰된 행동을 자신의 관점에서 이해하고 모방할 수 있는 능력을 개발하였다.
Abstract
이 연구는 로봇이 타인의 관점에서 관찰된 행동을 자신의 관점에서 이해하고 모방할 수 있는 능력을 개발하는 것을 목표로 한다.
주요 내용은 다음과 같다:
확산 모델 기반의 새로운 아키텍처를 제안하여 타인의 관점(3인칭)에서 관찰된 이미지를 로봇의 관점(1인칭)에서의 이미지로 변환할 수 있다.
제안 모델은 기존 접근법인 pix2pix와 CycleGAN 모델보다 우수한 성능을 보인다.
제안 모델은 3인칭 이미지로부터 1인칭 관점의 관절 값을 직접 추론할 수 있다.
새로운 데이터셋을 구축하여 공개할 예정이다.
전반적으로 이 연구는 로봇의 관점 이해 능력 향상을 통해 타인의 행동을 모방하는 학습 능력을 개선하는 데 기여한다.
Stats
3인칭 관점 이미지에서 1인칭 관점 이미지로의 변환 시 평균 제곱 오차(MSE)는 0.0007, L1 노름은 0.0086, 구조적 유사도(SSIM)는 0.9773로 나타났다.
3인칭 이미지에서 관절 값 예측 시 평균 제곱 오차는 약 27e-4로 나타났다.
1인칭 이미지를 사용하여 관절 값을 예측할 경우 평균 제곱 오차를 3e-7까지 낮출 수 있었다.