이 연구는 자동차 도장 공정의 색상 배치 재배열 문제(Color-batching Re-sequencing Problem, CRP)를 최적화하기 위해 HAAM-RL(Heuristic Algorithm-based Action Masking Reinforcement Learning)이라는 새로운 강화 학습 접근법을 제안한다.
기존 휴리스틱 알고리즘은 실제 제약 조건을 충분히 반영하지 못하고 물류 성능을 정확하게 예측하지 못하는 한계가 있었다. 이 연구에서는 다음과 같은 핵심 기술을 활용한다:
FlexSim이라는 상용 3D 시뮬레이션 소프트웨어와 BakingSoDA라는 자사의 RL MLOps 플랫폼을 활용하여 RL 에이전트를 학습하고 평가했다. 30개 시나리오에 걸친 실험 결과, HAAM-RL에 앙상블 추론 방법을 적용한 경우 기존 휴리스틱 알고리즘 대비 16.25% 성능 향상을 달성했으며, 안정적이고 일관된 결과를 보였다. 이는 복잡한 제조 공정을 최적화하는 데 효과적임을 보여준다.
향후 연구 방향으로는 대안적인 상태 표현, 모델 기반 RL 방법 도입, 추가적인 실제 제약 조건 통합 등이 있다.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Kyuwon Choi,... às arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14110.pdfPerguntas Mais Profundas