Conceptos Básicos
大規模言語モデルを訓練するための階層的なマルチターンRLアルゴリズムの提案と効果的性能向上を実証。
Resumen
本論文では、大規模言語モデル(LLMs)に対する多段階RLアプローチであるArCHerの枠組みを開発し、その有効性を実験的に検証しています。ArCHerは既存のオンポリシーおよびオフポリシーRL方法よりも100倍のサンプル効率を達成し、パフォーマンスも向上させます。このアプローチは、7億規模までの異なるトランスフォーマーアーキテクチャやパラメータにスケーリング可能であり、RLアルゴリズムとモデルのプラグアンドプレイ選択を直接可能にします。
Estadísticas
サンプル効率が100倍改善されました。
モデル容量が拡大すると性能が向上しました(最大7億規模)。