효율적인 다중 작업 강화 학습을 위한 작업 특정 행동 수정
본 논문은 다중 작업 강화 학습의 효율성을 높이기 위해 작업 특정 행동 수정(TSAC)이라는 일반적이고 보완적인 접근 방식을 제안한다. TSAC는 정책 학습을 공유 정책(SP)과 행동 수정 정책(ACP)의 두 가지 정책으로 분해한다. SP는 작업 특정 정보에 초점을 맞추는 반면, ACP는 목표 지향적 희소 보상을 활용하여 작업 간 일반화를 달성한다. 이를 통해 작업 간 갈등을 해결하고 전반적인 성능을 향상시킨다.