大規模言語モデルを自律型の言語エージェントとして活用するためには、環境からのフィードバックを活用して、エージェントの行動を段階的に改善していく必要がある。本研究では、事後的な振り返りモデルを用いて、強化学習のアプローチでエージェントの行動を最適化する手法を提案する。