核心概念
大型言語モデルから生成したイメージロールアウトを活用することで、オフラインリインフォースメント学習を通じて、エージェントが新しいタスクを学習し、遂行できるようになる。
要約
本研究では、Knowledgeable Agent from Language Model rollouts (KALM)と呼ばれる手法を提案している。KALM は、事前学習済みの大型言語モデルを活用し、環境内のデータを理解し、新しいスキルに対応したイメージロールアウトを生成する。そして、このイメージロールアウトとオフラインの実データを組み合わせてオフラインリインフォースメント学習を行うことで、エージェントが新しいタスクを学習し、遂行できるようになる。
具体的には以下の3つのステップから成る:
- 大型言語モデルの環境理解: 大型言語モデルに環境内のデータ(状態、行動、報酬など)を理解させるため、教師あり学習によるファインチューニングを行う。これにより、言語モデルが環境の動力学を理解できるようになる。
- 新しいスキルに対するイメージロールアウトの生成: ファインチューニングされた言語モデルに、新しいタスクに関する自然言語の指示を与えることで、対応するイメージロールアウトを生成する。
- オフラインリインフォースメント学習による政策の獲得: 実データとイメージロールアウトを組み合わせてオフラインリインフォースメント学習を行い、新しいタスクに対応できる政策を獲得する。
実験では、CLEVR-Robotタスクを用いて評価を行っている。結果として、KALMは、既存のタスクに対する性能を維持しつつ、新しいタスクに対する成功率を大幅に向上させることができた。特に、言語モデルのファインチューニングの効果が大きいことが示された。
統計
既存のタスクに対する成功率は70%程度を維持
言い換えタスクに対する成功率は45%
未知の簡単なタスクに対する成功率は35%
未知の難しいタスクに対する成功率は10%
引用
"大型言語モデルから生成したイメージロールアウトを活用することで、オフラインリインフォースメント学習を通じて、エージェントが新しいタスクを学習し、遂行できるようになる。"
"KALMは、既存のタスクに対する性能を維持しつつ、新しいタスクに対する成功率を大幅に向上させることができた。"
"特に、言語モデルのファインチューニングの効果が大きいことが示された。"