대규모 비전-언어 모델(VLM)에서 어포던스를 효율적으로 학습하고, 이를 플로우 매칭 기반 로봇 조작 정책 학습에 활용하여 효율적이고 일반화된 로봇 조작 성능을 달성할 수 있다.
ReKep는 시맨틱 키포인트를 기반으로 로봇 조작 작업을 위한 제약 조건을 나타내는 새로운 방법으로, 대규모 비전 모델과 비전-언어 모델을 활용하여 실시간으로 복잡한 조작 동작을 생성합니다.
본 논문에서는 복잡한 충격 시나리오에서 로봇 조작을 위한 강체 충격 맵을 생성하고 검증하는 방법을 제안하며, 특히 시뮬레이션과 실제 실험 간의 차이를 정량화하여 보다 정확하고 신뢰할 수 있는 충격 기반 로봇 제어 시스템 개발을 목표로 합니다.
STEER는 기존 로봇 데모 데이터에서 추출한 유연하고 구성 가능한 조작 기술을 활용하여 새로운 상황에 일반화할 수 있는 로봇 학습 프레임워크입니다.
시뮬레이션에서 훈련된 로컬 정책을 활용하여 다양한 장기 조작 작업을 실제 로봇이 사전 경험 없이도 수행할 수 있다.
본 논문에서는 인간 참여 강화 학습 시스템을 통해 다양한 조작 작업에서 뛰어난 성능을 보이는 로봇을 구현하는 방법을 제시합니다.
ActAIM2는 다양한 객체 인스턴스 및 범주에 일반화 가능한 방식으로, 이산 표현 학습을 통해 다양한 로봇 상호 작용 모드를 발견하고 실행할 수 있는 자기 지도 학습 프레임워크를 제시합니다.
본 논문에서는 복잡한 공간 관계를 이해하고 조작하는 로봇의 능력을 향상시키기 위해 객체 속성과 계층적 공간 관계 표현을 결합한 새로운 데이터 세트와 접근 방식을 제안합니다.
제한된 데모 데이터만으로 새로운 환경에 일반화 가능한 로봇 조작 정책을 개발하는 것은 어려운 과제였지만, 본 논문에서 소개하는 CAGE는 인과적 주의 메커니즘을 통합하여 이러한 문제를 해결하는 새로운 접근 방식을 제시합니다.
PIVOT-R은 복잡한 로봇 조작 작업을 위한 원시 동작 기반 웨이포인트 인식 세계 모델로, 비동기적 계층적 실행기를 통해 성능과 효율성을 향상시킵니다.