Основні поняття
大規模言語モデルにおいて、プライバシー保護、著作権保護、モデルの堅牢性、人間の価値観との整合性などの観点から、望ましくない知識やふるまいを取り除くための効果的なデジタル忘却手法の開発が重要である。
Анотація
本論文は、大規模言語モデル(LLM)におけるデジタル忘却に関する包括的な調査を行っている。
まず、LLMの構成要素、種類、トレーニング手順について説明している。次に、デジタル忘却の動機、種類、求められる特性について述べている。
その上で、LLMにおけるデジタル忘却のアプローチを4つのカテゴリーに分類している:
- 全体的な重み修正: データシャーディング、勾配上昇、知識蒸留、汎用的な代替手法、強化学習
- 局所的な重み修正: ローカルリトレーニング、タスクベクトル、直接修正
- アーキテクチャ修正: 追加の学習可能層、線形変換
- 入出力修正: 入力操作、情報検索、文脈学習
各手法の詳細と、それらの評価手法、課題、および適用場面について議論している。
Статистика
大規模言語モデルのトレーニングには膨大な量のデータが使用される。
これらのデータには、プライバシー侵害や著作権侵害、バイアス、有害な内容などの問題が含まれる可能性がある。
モデルがこれらの問題のある情報を学習してしまうと、深刻な影響を及ぼす可能性がある。