Grunnleggende konsepter
大規模言語モデルは、従来の教師あり学習に加えて、文脈内強化学習(ICRL)を通じて報酬のみから学習できる可能性を示唆している。
Sammendrag
大規模言語モデルにおける文脈内強化学習の可能性
本稿は、大規模言語モデル(LLM)が文脈内強化学習(ICRL)を実行できるかどうかを探求した研究論文である。
本研究は、LLMが文脈内で報酬のみから学習できるかどうか、つまり文脈内強化学習(ICRL)が可能かどうかを調査することを目的とする。
Llama 3.1とPhi-3.5-miniという2つのLLMを用いて実験を行った。
Banking-77、Clinic-150、NLU、TREC、TREC-fineの5つの標準的な分類ベンチマークを使用した。
ICRLを実現するために、Naive、Explorative、Approximateという3つのアルゴリズムを設計した。
NaiveはICRLの直接的な実装である。
Explorativeは、探索能力を高めるために確率的なプロンプト構築を採用し、正の報酬のエピソードのみに焦点を当てる。
Approximateは、Explorativeの計算コストを削減するための近似手法である。