핵심 개념
사전 학습된 텍스트 기반 확산 모델을 활용하여 텍스트로 지정된 목표를 달성하는 강화 학습 정책을 제로샷 방식으로 학습할 수 있습니다.
초록
텍스트 기반 확산 모델을 활용한 정책 학습: 연구 논문 요약
Luo, C., He, M., Zeng, Z., & Sun, C. (2024). Text-Aware Diffusion for Policy Learning. Advances in Neural Information Processing Systems, 38.
본 연구는 복잡한 보상 함수를 수동으로 설계하지 않고도 자연어 텍스트를 통해 에이전트의 목표 또는 행동을 유연하게 지정하고 학습할 수 있는 제로샷 텍스트 조건 보상 신호를 생성하는 방법을 연구합니다.