핵심 개념
다중 작업 로봇 조작을 위한 등위 확산 정책(HDP)은 등위 에이전트로 구성된 계층적 구조를 소개합니다.
초록
1. 소개
로봇 공학에서 효율적인 시각 조작 전략 학습은 다양한 환경, 물체 및 로봇 궤적으로 인해 어려움을 겪습니다.
정책 표현의 선택이 에이전트 성능에 강력한 영향을 미칩니다.
최근에는 다음 최적 위치(NBP) 에이전트의 학습이 로봇 조작의 표본 효율성과 성능을 크게 향상시켰습니다.
2. 등위 확산 정책(HDP)
HDP는 다중 작업 에이전트로, 고수준 NBP 에이전트와 저수준 학습된 컨트롤러를 연결하여 조작 정책을 분해합니다.
HDP는 로봇의 운동 경로를 생성하기 위해 정확한 관절 위치 및 로봇의 엔드 이펙터 위치 확산을 학습합니다.
3. 관련 작업
종단 간 조작 접근 방식은 물체 및 작업에 대한 가정이 적고 RGB 이미지를 로봇 조작으로 직접 매핑합니다.
다른 작업은 다음 최적 위치(NBP) 액션 모드를 사용하여 새로운 "키프레임"을 직접 예측하고 3D 액션-값 맵을 학습합니다.
4. 결과
HDP는 RLBench 작업에서 최첨단 방법보다 우수한 성과를 달성합니다.
계층적 에이전트는 단순한 저수준 연속 제어 정책보다 우수한 성능을 보입니다.
학습된 저수준 에이전트는 모션 플래너보다 더 나은 성능을 보입니다.
통계
HDP는 시뮬레이션 및 실제 세계에서 최첨단 방법보다 높은 성공률을 달성합니다.
인용구
"Hierarchical Diffusion Policy (HDP)는 로봇 조작을 위한 계층적 에이전트로, 고수준 NBP 에이전트와 저수준 학습된 컨트롤러를 연결하여 조작 정책을 분해합니다."
"HDP는 로봇의 운동 경로를 생성하기 위해 정확한 관절 위치 및 로봇의 엔드 이펙터 위치 확산을 학습합니다."