核心概念
자유형 로봇을 위한 정책 그래디언트 방법 소개
統計
로봇의 몸체 부피를 최대화하는 간단한 구조적 목표에 대한 정책 훈련을 500회 반복하여 5개의 독립적인 시행에서 실시.
로봇의 수평 평면에서 시작과 끝 위치 사이의 최대 유클리드 거리를 측정하여 5초 평가 기간 동안 로봇의 행동 보상을 측정하는 128개 디자인의 최적화.
引用
"로봇의 물리적 구조는 정책 최적화를 용이하게 하거나 방해할 수 있음."
"자유형 로봇을 설계하기 위한 정책 그래디언트 방법 소개."