Core Concepts
言語モデルが質問を行うことで、ユーザーの好みを引き出し、パーソナライズされた回答を生成することができる。
Abstract
本論文では、STaR-GATEと呼ばれる手法を提案している。これは、言語モデルの自己改善を通じて、ユーザーの好みを引き出す質問能力を向上させるものである。
具体的には以下の通り:
25,500件のタスク-ユーザーペルソナ-正解回答のデータセットを生成
質問を行うQuestionerモデルと、ユーザーペルソナを持つRoleplayerモデルを用意
Questionerモデルが行った質問に基づいて生成された回答の対数確率を最大化するように、Questionerモデルを反復的に微調整
回答生成能力の維持のため、前回のQuestionerモデルから生成した回答も併せて学習
この手法により、Questionerモデルは質問能力を向上させ、正解回答の生成確率を高めることができた。また、初期モデルと比較して72%の勝率で回答を生成できるようになった。
Stats
質問を行うことで、正解回答の生成確率を高められる。
質問と回答を組み合わせて学習することで、回答生成能力を維持できる。