Khái niệm cốt lõi
人間のアノテーターを必要としない方法で言語モデルを微調整することで、トレーニングコストを削減し、自己修正能力を示す。
Tóm tắt
ChatGPTの広範な使用は、人間フィードバックからの強化学習の潜在能力を示しています。しかし、そのトレーニングパイプラインは手動ランキングに依存しており、労働コストが高くなっています。労働コストを削減するために、Proximal-Policy-Optimizationを適用した自己監督テキストランキングアプローチを提案します。この方法では、確率的サンプリングから始めて、TextRankおよびISODATAアルゴリズムを使用して応答をランク付けし、報酬モデルを構築して最適化します。実験結果は、提案された方法で訓練されたモデルがBLEU、GLEU、METEORスコアに関して基準値よりも優れていることを示しました。さらに、手動評価では、我々のランキング結果が人間と非常に一貫性が高いことが示されました。
Thống kê
我々の方法で訓練されたモデルはBLEU、GLEU、METEORスコアに関して基準値よりも優れていることが実験結果から明らかになった。
手動評価では我々のランキング結果が人間と非常に一貫性が高いことが示された。