작업 무관 통신 전략의 효율적인 활용과 일반화
보상 함수의 매개변수에 대한 정보 획득을 최대화하는 새로운 쿼리 방법의 우수한 성능을 입증하고, 보상 함수를 학습하는 새로운 프레임워크 소개
비볼록 궤적 최적화를 위한 제약된 확산 모델을 활용하여 효율적이고 안전한 궤적 최적화를 실현합니다.
신경 모방 정책의 안정적인 훈련과 글로벌 안정성 보장
인간의 학습 메커니즘을 모방한 새로운 다중 작업 강화 학습 프레임워크인 ERP-BPNN의 성공적인 성능과 빠른 수렴을 보여줌.
3D Diffusion Policy (DP3)는 3D 시각 표현과 확산 정책을 결합하여 로봇 학습에 효과적인 방법을 제시합니다.
대규모 자연 보행자 데이터 수집의 중요성과 효율성
SELFI는 온라인 학습 방법을 제안하여 모델 기반 학습과 모델 없는 강화 학습을 결합하여 로봇의 제어 정책을 효과적으로 세밀하게 조정합니다.