核心概念
LLMのアモーティゼーションにより、扱いにくい事後分布からサンプリングする方法を提案し、効果的な代替手法を示す。
統計
多様性強化リアルタイム学習アルゴリズム:generative flow networks (GFlowNets)
10ラベル例で主観性分類で10.9%改善
整数算術ではPPOよりも63%優れたパフォーマンス
引用
"A deeply moving storyline."
"The cat was hungry."
"The review expresses a personal opinion."