מושגי ליבה
AGV가 복잡하고 동적인 환경에서 안전하고 빠르게 최적의 경로를 계획할 수 있도록 하는 랜덤 네트워크 증류 기반 심층 강화 학습 방법을 제안한다.
תקציר
이 논문에서는 AGV 경로 계획을 위한 새로운 방법인 RND-PPO를 제안한다. RND-PPO는 랜덤 네트워크 증류 메커니즘을 PPO 알고리즘에 결합하여, 희소 보상 환경에서 AGV 에이전트의 탐색 성능을 향상시킨다.
구체적으로:
RND는 에이전트에게 내재적 보상을 제공하여 희소 보상 환경에서의 학습 효율을 높인다.
실제 물리적 환경을 모사한 연속 동작 및 위치 시뮬레이션 환경을 구축하여, 기존 연구의 한계를 극복한다.
실험 결과, RND-PPO 방법이 다양한 정적/동적 환경에서 AGV 경로 계획 성능을 향상시킨다.
סטטיסטיקה
AGV 에이전트의 시작 위치는 단순 환경에서 (-5.0, 0.5, -8.0), 복잡 환경에서 (-12.0, 0.5, -16.0)이다.
단순 정적 환경의 목표 위치는 (5.0, 0.5, -1.5)이고, 단순 동적 환경에서는 (5.0, 0.5, -1.5)와 (-8.0, 0.5, -1.0) 사이에서 랜덤 생성된다.
복잡 정적 환경의 목표 위치는 (17.0, 0.5, 15.0)이고, 복잡 동적 환경에서는 (15.0, 0.5, 2.0), (15.0, 0.5, -17.0), (-17.0, 0.5, 15.0) 사이에서 랜덤 생성된다.
단순 환경의 최대 에피소드 길이는 2000 단계, 복잡 환경은 3000 단계(정적) 및 4000 단계(동적)이다.
각 실험은 1백만 에피소드 동안 진행되었다.
ציטוטים
"RND는 에이전트에게 내재적 보상을 제공하여 희소 보상 환경에서의 학습 효율을 높인다."
"실제 물리적 환경을 모사한 연속 동작 및 위치 시뮬레이션 환경을 구축하여, 기존 연구의 한계를 극복한다."
"실험 결과, RND-PPO 방법이 다양한 정적/동적 환경에서 AGV 경로 계획 성능을 향상시킨다."