Core Concepts
機械学習モデルは、その構造とサイズから、データを忘れたり削除したりすることが期待されるほど単純ではない。
Abstract
人工知能が日常的であり、深層学習に基づくシステムが思考するように見える時代に向かう中で、機械学習と忘れられる権利(RTBF)の本質的なギャップが探求されています。現代の深層学習ベースのAIシステムは、巨大なニューロン接続とパラメータを持つ電子脳を作成しており、これらは通常思考するマシンと呼ばれます。しかし、これらのAIがデータを忘れることができる保証はあるのでしょうか?もしAIがある程度脳に似ている場合、RTBFはこれらのAIと取引する際に依然守られるべきでしょうか?深層学習モデルは、その構造やサイズから来る制約により、データを忘れたり削除したりすることが期待されるほど単純ではない可能性があります。この記事では、この問題点に焦点を当てています。
1990年代にAI研究は停滞していましたが、今日ではAIブームの真っ只中です。大規模なデータセットやGPUの普及により、AIモデルの性能向上が可能になっています。しかし、これらのモデルは巨大な量のパラメータを持ち、それらを削除することは非常に困難です。現在利用可能なアルゴリズムでも削除エラー率が存在し、完全な消去は保証されません。また、「怠惰評価」と呼ばれるアプローチも一部データを保持し続ける可能性があります。
この問題解決策として再トレーニングや差分プライバシーへの取り組みも行われています。しかし、現在では完全かつ確実なマシンアンラーニング方法は存在せず、課題解決に向けた多くの課題が残っています。
Stats
GPT-4は1.7兆個のパラメータでトレーニングされました。
GPT-3は1750億個のパラメータを持っています。
マシンアンラーニング研究では法的根拠から見て受け入れ可能な精度よりも低い精度しか示していません。
Quotes
"深層学習モデルは暗号化に使用されており、削除よりも暗号化処理に適している" - Patel et al.
"マシンアンラーニングモデルから特定個人情報を提供しないよう指示すべき" - Content ends---
"マシンアンラーニングモデル自体から特定個人情報を削除する代わりに未承認である旨回答させる方法も考えられます" - Content ends---