이 연구는 자동차 도장 공정의 색상 배치 재배열 문제(Color-batching Re-sequencing Problem, CRP)를 최적화하기 위해 HAAM-RL(Heuristic Algorithm-based Action Masking Reinforcement Learning)이라는 새로운 강화 학습 접근법을 제안한다.
기존 휴리스틱 알고리즘은 실제 제약 조건을 충분히 반영하지 못하고 물류 성능을 정확하게 예측하지 못하는 한계가 있었다. 이 연구에서는 다음과 같은 핵심 기술을 활용한다:
FlexSim이라는 상용 3D 시뮬레이션 소프트웨어와 BakingSoDA라는 자사의 RL MLOps 플랫폼을 활용하여 RL 에이전트를 학습하고 평가했다. 30개 시나리오에 걸친 실험 결과, HAAM-RL에 앙상블 추론 방법을 적용한 경우 기존 휴리스틱 알고리즘 대비 16.25% 성능 향상을 달성했으며, 안정적이고 일관된 결과를 보였다. 이는 복잡한 제조 공정을 최적화하는 데 효과적임을 보여준다.
향후 연구 방향으로는 대안적인 상태 표현, 모델 기반 RL 방법 도입, 추가적인 실제 제약 조건 통합 등이 있다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問