大規模言語モデル(LLM)は、強化学習の文脈において最適な意思決定を行うための探索能力が不足しており、本研究では、LLMの探索能力を向上させるために、アルゴリズムによる推論時のサポートと、アルゴリズム蒸留による最適な探索行動の学習という2つの新しいアプローチを提案する。