Conceptos Básicos
大規模言語モデルは訓練テキストシーケンスを記憶し、それらを文章生成時に逐語的に吐き出すことが知られている。このことは、プライバシーや著作権の問題の原因となる。モデルの有用性を損なわずに、これらの副作用に適切に対処するための新しいアルゴリズムを提案する。
Resumen
大規模言語モデル(LLM)は、トランスフォーマーアーキテクチャを基に、膨大なデータ(最大数兆トークン)を使って訓練されるモデルである。大量のデータと長期の訓練プロセスにより、LLMは事実関係の連想や言語の意味論やグラマーを習得することができる。
しかし、LLMは訓練例を記憶してしまい、慎重に設計されたプロンプトに対して、訓練コーパス内の情報を逐語的に出力してしまうことが明らかになっている。これにより、プライバシーが侵害される。
これらの問題は、個人情報の削除権(RTBF)を定めた法律や規制と対立している。LLMから記憶データを削除するための単純なアプローチは、LLMを「最初から」再訓練することだが、これは現実的ではない。
本研究では、訓練データの記憶を削除するための効率的な手法を研究する。具体的には、モデルの有用性を損なわず、訓練データにアクセスせずに、プライバシーや著作権の問題に対処することを目的とする。
提案手法では、各テキストシーケンスの記憶度に応じて個別に扱うことで、記憶の削除を細かく制御することができる。これにより、プライバシー攻撃や著作権侵害に対する脆弱性を低減できる。
提案手法の性能評価では、9つの自然言語処理分類タスクと4つのテキスト生成タスクを使って、モデルサイズと忘却セットサイズを変えて検討した。その結果、状況に応じて最適な手法を特定できた。既存の最先端手法と比較して、提案手法は、モデルの有用性とプライバシー指標の両方で優れていることを示した。
Estadísticas
LLMは訓練データの1%以上を記憶している可能性がある。
GPT-Jは60%の確率で訓練データを逐語的に出力する可能性がある。
提案手法SGA(Selective Gradient Ascent)は、忘却セットの中で記憶スコアが上位1.8個のサンプルしか抽出できない。
Citas
"LLMは訓練テキストシーケンスを記憶し、それらを文章生成時に逐語的に吐き出すことが知られている。"
"これらの問題は、個人情報の削除権(RTBF)を定めた法律や規制と対立している。"
"提案手法では、各テキストシーケンスの記憶度に応じて個別に扱うことで、記憶の削除を細かく制御することができる。"