核心概念
モバイルデバイスでのLLMインファレンス時に発生するKVリークを防ぐため、TEEを活用したパーミュテーション手法を提案する。
要約
本論文では、モバイルデバイスでのLLMインファレンス時に発生するKVリークの問題に取り組んでいる。
まず、KVリークの脅威モデルを説明している。攻撃者は、GPUのローカルメモリに保存されたKVペアを盗み出し、ユーザーの会話内容を再構築することができる。
次に、FHEやTEEといった既存の保護手法を検討しているが、FHEは計算コストが高すぎ、TEEはメモリ容量や演算性能の制限から効率的なLLMインファレンスを実現できないことを示している。
そこで、KV-Shieldと呼ぶ新しい手法を提案している。KV-Shieldは、LLMモデルの重みをTEE内でランダムにパーミュテーションすることで、KVペアを不可解な形式に変換する。インファレンス時は、TEE内で逆パーミュテーションを行うことで正しい出力を得る。これにより、GPUが扱うKVペアは元の内容を持たず、ユーザーの会話を再構築できなくなる。
理論的な正当性と実装上の課題について分析しており、パーミュテーション処理のオーバーヘッドが大きいことを指摘している。今後の最適化が必要であるが、KVリークを防ぐ効果的な手法を提案している。
統計
LLaMA2-7Bモデルの単一デコード時のKVペアサイズは、シーケンス長×1MiBに達する。
ChatGLM3-6Bモデルの単一デコード時のKVペアサイズは、シーケンス長×56KiBに達する。
Qwen2-7Bモデルの単一デコード時のKVペアサイズは、シーケンス長×112KiBに達する。
引用
"FHEは計算コストが高すぎ、LLMインファレンスに適用するのは難しい。"
"TEEはメモリ容量や演算性能の制限から、効率的なLLMインファレンスを実現できない。"