Centrala begrepp
오프라인 강화 학습에서 마바 의사 결정자(MambaDM)는 전역 및 지역 특징을 효과적으로 통합하여 강화 학습 궤적의 내부 상관관계를 더 잘 이해하고 예측 성능을 향상시킨다.
Sammanfattning
이 논문은 오프라인 강화 학습에서 마바 의사 결정자(MambaDM)를 제안한다. MambaDM은 전역 및 지역 특징을 효과적으로 통합하는 새로운 글로벌-로컬 융합 마바(GLoMa) 모듈을 도입하여 강화 학습 궤적의 내부 상관관계를 더 잘 이해하고자 한다.
구체적으로:
- MambaDM은 강화 학습 궤적의 고유한 특성인 지역 상관관계와 전역 상관관계를 모두 효과적으로 포착하기 위해 GLoMa 모듈을 제안한다.
- 실험 결과, MambaDM은 Atari 및 OpenAI Gym 벤치마크에서 최신 기술 수준을 능가하는 성능을 달성했다.
- MambaDM의 스케일링 법칙 분석 결과, 모델 크기 증가보다는 데이터셋 크기 증가가 성능 향상에 더 효과적임을 보여준다.
- 마바 모듈의 시각화 분석을 통해 MambaDM이 단기 및 장기 의존성을 모두 효과적으로 포착할 수 있음을 확인했다.
이 연구는 강화 학습 분야에서 효율적이고 강력한 의사 결정 시스템 개발을 위한 기반을 마련한다.
Statistik
마바 의사 결정자(MambaDM)는 Atari 벤치마크에서 Breakout 게임에서 평균 점수 365.4점을 달성하여, 기존 최고 모델 대비 51.1% 향상된 성능을 보였다.
MambaDM은 OpenAI Gym의 Hopper-M 환경에서 평균 85.7점을 기록하여, 기존 최고 모델 대비 29.2% 향상된 성능을 보였다.
Citat
"오프라인 강화 학습에서 마바 의사 결정자(MambaDM)는 전역 및 지역 특징을 효과적으로 통합하여 강화 학습 궤적의 내부 상관관계를 더 잘 이해하고 예측 성능을 향상시킨다."
"MambaDM의 스케일링 법칙 분석 결과, 모델 크기 증가보다는 데이터셋 크기 증가가 성능 향상에 더 효과적임을 보여준다."