本論文では、強化学習を用いて大規模言語モデル(LLM)を人間の好みに合わせて整列させる際のプライバシー保護手法を提案している。
まず、事前学習済みのLLMをまず教師あり学習によって微調整し、言語生成能力を高める(SFT)。次に、人間の好みを表すリワード関数を差分プライバシー(DP)を用いて学習する。最後に、DPを用いたPPOアルゴリズムによってLLMを最適化し、人間の好みに合わせて整列させる。
実験では、IMDbデータセットを用いた感情生成タスクとReddit TL;DRデータセットを用いた要約タスクで評価を行った。結果、提案手法によって人間の好みに合わせた生成が可能であり、かつ強力なプライバシー保護が実現できることを示した。特に、モデルサイズを大きくすることで、プライバシー-効用のトレードオフが改善されることが分かった。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor