본 논문에서는 트랜스포머 동역학 모델(TDM)의 뛰어난 예측 성능과 모델 프리 Q-트랜스포머(QT)의 효율성을 결합하여 실시간 계획의 계산 부담을 줄이는 새로운 모델 기반 알고리즘인 QT-TDM을 제안합니다.
본 논문에서는 난류 환경에서 유영하는 물체의 제어 문제를 해결하기 위해 물리 정보를 활용한 새로운 강화 학습 알고리즘인 Actor-Physicist (AP)를 제안하고, 기존 Actor-Critic (AC) 알고리즘과의 성능 비교를 통해 그 우수성을 입증합니다.
본 논문에서는 관찰에 비용이 발생하는 환경에서 정보 획득 비용과 정보에 입각한 의사 결정의 이점 사이의 균형을 효과적으로 맞추는 새로운 접근 방식인 관찰 제약적 마르코프 결정 프로세스(OCMDP)를 제안합니다.
본 논문에서는 장기간 작업 수행 시 기존의 LLM 기반 에이전트가 갖는 메모리 부족 문제를 지적하고, 이를 해결하기 위해 새로운 메모리 시스템인 PEM(Place Event Memory)을 탑재한 에이전트, Mr. 스티브를 제안합니다. Mr. 스티브는 PEM을 통해 효율적인 탐험과 과거 정보 활용을 가능하게 하여, 제한된 메모리 환경에서도 복잡한 작업을 효과적으로 수행합니다.
객체 포인트 클라우드 특징 기반 작업 분할을 통해 범용-전문가 학습 (GSL) 프레임워크 내 전문가 학습의 효율성을 향상시키는 방법론 제시
KL 정규화는 문맥적 밴딧 및 RLHF에서 정책 최적화를 위한 샘플 복잡도를 향상시키고, 우수한 데이터 적용 범위를 갖춘 참조 정책을 사용한 혼합 샘플링 전략은 명시적 탐색 없이도 효율적인 학습을 가능하게 합니다.
본 논문에서는 제약 없는 목표 탐색을 위한 효율적인 World Model 학습 알고리즘인 MUN을 제안하며, 이는 희소 보상 환경에서 에이전트의 탐색 효율성을 향상시키고 새로운 목표 설정에 대한 일반화 능력을 개선합니다.
본 논문에서는 비정상 환경에서 에이전트가 새로운 작업에 빠르게 적응하고 효과적으로 학습할 수 있도록 잠재적 상상을 통해 행동을 학습하는 적응형 세계 모델인 HiP-POMDP Formalism을 제안합니다.
본 논문에서는 시간적 목표를 명확하게 나타내고 강화 학습 정책의 효율성을 향상시키기 위해 합성 결정적 유한 오토마타(cDFA)를 기반으로 하는 새로운 목표 조건 강화 학습 방법을 제안합니다.
본 논문에서는 단계별 보상 없이 궤적-반환 쌍으로부터 학습하여 장기적인 계획을 수행하는 새로운 생성 모델인 잠재 계획 변환기(LPT)를 제안합니다. LPT는 잠재 변수를 활용하여 궤적 생성과 최종 반환을 연결하고, 잠재 공간에서의 추론을 통해 일관성 있는 계획을 생성합니다.