비마르코프 보상 구조를 가진 현실 세계의 문제를 해결하기 위해, 본 논문에서는 가방 보상 기반 강화 학습 (RLBR) 프레임워크를 제안하고, 가방 내의 맥락 정보를 해석하고 환경 역동성을 이해하여 보상을 효율적으로 재분배하는 보상 모델인 보상 가방 트랜스포머 (RBT)를 소개합니다.