N-gram誘導ヘッドをTransformerに組み込むことで、文脈内強化学習の安定性とデータ効率を大幅に向上させることができる。
本稿では、ランダムポリシー下での文脈内強化学習(ICRL)のための新しいアプローチ、状態行動蒸留(SAD)を提案する。SADは、最適なポリシーや十分に訓練されたポリシーを必要とせずに、ランダムポリシーを用いて有望なICRLを実現する最初の手法である。
大規模言語モデルは、従来の教師あり学習に加えて、文脈内強化学習(ICRL)を通じて報酬のみから学習できる可能性を示唆している。