핵심 개념
EgoMimic은 인간의 에고센트릭 비디오 데이터를 로봇 모방 학습에 활용하여 기존 방식보다 성능과 일반화 능력을 크게 향상시키는 프레임워크입니다.
초록
EgoMimic: 에고센트릭 비디오를 통한 모방 학습 규모 확장
본 연구 논문에서는 로봇 모방 학습에 필요한 대규모의 다양한 시연 데이터를 효율적으로 수집하고 활용하는 데 어려움을 해결하고자 합니다. 특히, 인간의 에고센트릭 비디오와 3D 손동작 추적 데이터를 활용하여 로봇의 조작 능력을 향상시키는 EgoMimic 프레임워크를 제안합니다.
EgoMimic은 다음과 같은 네 가지 핵심 구성 요소로 이루어져 있습니다.
인간 데이터 수집 시스템: 인체공학적인 Project Aria 글래스를 사용하여 에고센트릭 비디오, 3D 손동작 추적 데이터, 장치 SLAM 데이터를 수집합니다.
저비용 양팔 로봇: 인간 데이터와의 운동학적 차이를 최소화하기 위해 저비용 양팔 로봇을 사용하며, Project Aria 글래스를 로봇의 주요 센서로 활용하여 인간-로봇 간 카메라 시야각 및 동적 범위 차이를 줄입니다.
도메인 간 데이터 정렬 기술: 인간과 로봇의 동작 분포를 정규화하고 정렬하며, 시각적 마스킹을 통해 인간 팔과 로봇 매니퓰레이터 간의 외관 차이를 최소화합니다.
통합 모방 학습 아키텍처: 공통 비전 인코더 및 정책 네트워크를 사용하여 인간 및 로봇 데이터를 공동으로 학습합니다. 인간과 로봇의 동작 공간이 다름에도 불구하고, 공유 표현을 통해 인간 데이터를 활용하여 성능을 향상시킵니다.