本論文では、モバイルデバイスでのLLMインファレンス時に発生するKVリークの問題に取り組んでいる。
まず、KVリークの脅威モデルを説明している。攻撃者は、GPUのローカルメモリに保存されたKVペアを盗み出し、ユーザーの会話内容を再構築することができる。
次に、FHEやTEEといった既存の保護手法を検討しているが、FHEは計算コストが高すぎ、TEEはメモリ容量や演算性能の制限から効率的なLLMインファレンスを実現できないことを示している。
そこで、KV-Shieldと呼ぶ新しい手法を提案している。KV-Shieldは、LLMモデルの重みをTEE内でランダムにパーミュテーションすることで、KVペアを不可解な形式に変換する。インファレンス時は、TEE内で逆パーミュテーションを行うことで正しい出力を得る。これにより、GPUが扱うKVペアは元の内容を持たず、ユーザーの会話を再構築できなくなる。
理論的な正当性と実装上の課題について分析しており、パーミュテーション処理のオーバーヘッドが大きいことを指摘している。今後の最適化が必要であるが、KVリークを防ぐ効果的な手法を提案している。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Huan Yang, D... at arxiv.org 09-09-2024
https://arxiv.org/pdf/2409.04040.pdfDeeper Inquiries