본 연구는 분류 기반 목적 함수를 사용하는 것이 기존의 회귀 기반 방법보다 오프라인 강화 학습에서 더 나은 성능을 보일 수 있는지, 그리고 이러한 방법이 다양한 알고리즘과 작업에 어떤 영향을 미치는지 실험적으로 분석합니다.
인수 분해 가능한 행동 공간에서 오프라인 강화 학습을 적용할 경우, 가치 분해를 활용하면 표준 접근 방식에 비해 여러 이점을 얻을 수 있으며, 특히 데이터 효율성과 계산 효율성을 향상시킬 수 있다.
Decision Transformer(DT)는 오프라인 강화 학습에서 뛰어난 성능을 보이지만, 데이터 세트 내의 준최적 궤적에 수렴하는 경향이 있습니다. 이 연구에서는 Diffusion-Based Trajectory Branch Generation(BG)이라는 새로운 방법을 제안하여 DT가 더 나은 정책을 학습하도록 데이터 세트를 확장합니다. BG는 확산 모델을 사용하여 더 높은 보상으로 이어지는 궤적 분기를 생성하고, 이를 기존 데이터 세트의 궤적에 연결하여 DT가 더 넓은 범위의 행동을 학습할 수 있도록 합니다.
SUMO는 모델 기반 오프라인 강화 학습에서 모델의 불확실성을 보다 정확하게 추정하여 학습 성능을 향상시키는 새로운 검색 기반 방법입니다.
오프라인 강화 학습에서 적절한 수준의 일반화는 성능 향상에 중요하며, 이중 온화 일반화(DMG)는 온화한 행동 일반화와 온화한 일반화 전파를 통해 이를 달성하여 가치 과대 평가를 제한하면서도 데이터셋을 넘어서는 일반화를 활용한다.
QPHIL은 상태 공간을 이산적인 랜드마크로 양자화하고 트랜스포머 기반 플래너를 사용하여 장거리 내비게이션 작업을 위한 효율적인 랜드마크 시퀀스를 생성하는 새로운 계층적 오프라인 강화 학습 방법입니다.
제한된 오프라인 데이터로 학습된 강화 학습 정책은 실시간 환경에서 예측하지 못한 외인성 외란에 취약하며, 이를 극복하기 위해 실시간 외란 특성화 및 정량화를 기반으로 배포 후 정책을 조정하는 Streetwise 에이전트 프레임워크를 제안합니다.
본 논문에서는 이기종 행동 정책이 혼재된 오프라인 데이터 환경에서 효율적인 신호등 제어를 위한 새로운 멀티 에이전트 강화 학습 프레임워크인 OffLight를 제안합니다. OffLight는 Importance Sampling과 Return-Based Prioritized Sampling을 활용하여 기존 방법 대비 향상된 성능을 보여줍니다.
본 논문에서는 비전 언어 모델의 선호도 피드백을 사용하여 라벨링 되지 않은 오프라인 데이터셋에서 로봇 제어 정책을 학습하는 Offline RL-VLM-F 시스템을 제안합니다.
본 논문에서는 제한된 잠재 행동 공간을 활용하여 모델 기반 오프라인 강화 학습에서 가치 과대평가 문제를 해결하는 C-LAP 방법을 제안합니다.