核心概念
クラウドベースのLLMサービスにおいて、ユーザーのプロンプトを機密に保つことが重要である。セキュアマルチパーティデコーディング(SMD)とプロンプトオブファスケーション(PO)の2つの手法を提案し、プロンプトの機密性、モデルの機密性、計算効率の3つの重要な制約を満たす。
要約
本論文は、クラウドベースのLLMサービスにおけるユーザープロンプトの機密性を保護する手法を提案している。
- セキュアマルチパーティデコーディング(SMD)
- LLMの推論プロセスを安全な2者計算として定式化し、ユーザープロンプトに対応する注意状態(K、V)をユーザーのCVMに保持させ、新しく生成されるトークンに対応する注意状態(Q、K、V)をホストが処理する。
- これにより、CVMにLLMモデルを保持する必要がなくなり、効率的なバッチ処理が可能になる。
- プロンプトオブファスケーション(PO)
- ユーザーのプロンプトに含まれる機密情報(個人名、日付など)を検出し、それらを統計的に区別できない偽の情報に置き換える。
- 複数の仮想プロンプトを生成し、ホストに処理させるが、CVMは真のプロンプトのインデックスを記憶し、真の出力のみをユーザーに返す。
- これにより、出力の機密性も保護される。
提案手法は、出力の一貫性、モデルの機密性、計算効率の3つの重要な制約を満たしつつ、ユーザープロンプトの機密性を保護することができる。
統計
個人名を含むプロンプトの場合、ϵ=0.1、λ=320程度の仮想プロンプトを生成できる。
年齢情報を含むプロンプトの場合、ϵ=0.1、λ=52程度の仮想プロンプトを生成できる。
仮想プロンプトのサンプリング時間は、ϵ=1/32、λmax=512の場合、8トークンの置換で約1秒。