核心概念
메타 리플렉션이라는 새로운 오프라인 강화 학습 기술을 사용하여 언어 에이전트의 성능을 향상시키는 방법을 제시합니다. 이 기술은 과거 시도에서 얻은 경험적 학습을 기반으로 의미 메모리를 강화하여 에이전트가 시간이 지남에 따라 학습하고 성능을 향상시킬 수 있도록 합니다.
要約
메타 리플렉션: 과거 경험을 활용한 언어 에이전트를 위한 명령 학습
본 논문에서는 대규모 언어 모델(LLM) 기반 언어 에이전트의 성능을 향상시키기 위한 새로운 오프라인 강화 학습 기술인 메타 리플렉션(MetaReflection)을 소개합니다. 메타 리플렉션은 과거 시도에서 얻은 경험적 학습을 기반으로 의미 메모리를 강화하여 작동합니다. 이를 통해 언어 에이전트는 시간이 지남에 따라 학습하고 성능을 향상시킬 수 있습니다.
메타 리플렉션은 오프라인 학습 단계에서 경험적 학습을 나타내는 의미 메모리를 강화하여 작동합니다. 이 알고리즘은 빈 명령 집합에서 시작하여 작은 학습 배치를 사용하여 명령을 반복적으로 개선합니다.
에이전트, 환경 및 자기 반성: 메타 리플렉션은 언어 모델을 기반으로 하는 에이전트, 에이전트의 궤적이 주어졌을 때 특정 작업에 대한 보상을 생성하는 환경, 에이전트의 궤적이 주어졌을 때 구두 강화를 생성하는 자기 반성 메서드를 사용합니다.
메타 리플렉션 단계: 메타 리플렉션 메서드는 이전 명령 집합, 자기 반성 집합, 학습 데이터 및 검증 데이터를 입력으로 받아 업데이트된 명령 집합을 생성합니다. 이는 언어 모델에 반성과 학습 데이터를 관찰하고 새로운 사례별이 아닌 명령 스타일 메모리를 생성하도록 지시하는 프롬프트를 사용하여 수행됩니다.
검증 및 백트래킹: 각 반복에서 메타 리플렉션 후 학습 데이터와 검증 세트의 임의 샘플에서 새 명령을 테스트하여 이전 명령보다 성능이 향상되었는지 확인합니다. 새 명령이 제대로 수행되지 않으면 이전 명령으로 돌아갑니다.
반복적 개선: 언어 모델의 자기 개선 동작에서 영감을 받아 각 배치에 대해 여러 번의 메타 리플렉션 시도를 사용하여 현재 배치에서 실패가 발생하지 않거나 최대 시도 횟수에 도달할 때까지 반복합니다.