Download Linnk AI
•
Autonomous Research Assistant
>
Sign In
insight
-
言語生成タスクにおける人間の評価に基づいた強化学習
共食ランチ: 人間の評価に基づいた言語モデルの強化学習
事前に収集された言語データを活用し、人間の評価に基づいて言語モデルを最適化する新しい強化学習アルゴリズムを提案する。
1