Główne pojęcia
LLMの導入に伴うリスクを包括的に評価し、適切な対策を講じるための枠組みを提供する。
Streszczenie
LLM(Large Language Models)の急速な普及とその潜在的なリスクに焦点を当てる。
OWASPやMITREの研究が存在するが、LLM関連のリスクを直接かつ簡潔に分析する方法が欠如していることを指摘。
リスクアセスメントプロセスと脅威行列の作成により、関係者は効果的な対策を優先順位付けし、セキュリティ対策を調整できるようになる。
シナリオ分析、依存性マッピング、影響分析を組み合わせた体系的なフレームワークが提供されている。
ハイポシェティカルな使用事例では、「Prompt Injection」が高いリスク評価であり、「Training Data Poisoning」が中程度の評価であることが示されている。
I. 導入
LLMは自然言語処理の重要な進歩であり、トランスフォーマーアーキテクチャに基づく大規模言語モデルはその基盤となっている。
LLMは事前学習および微調整フェーズから成り立ち、それぞれ異なるタスクやドメインに適応されている。
II. リスクアセストメントプロセス
A. ステークホルダー
LLM Fine-tuning Developers: 基本モデルから派生したオープンソースモデルを微調整する開発者。
LLM API Integration Developers: 公開APIを利用してアプリケーションやプラグインを開発する開発者。
End Users: LLMシステムを利用する最終ユーザー。
B. リスク分析プロセス
Prompt Injection:
脆弱性要因:入力制御/検証不足、LLM固有の性質や設計/アーキテクチャ。
影響:評判喪失、部分IP喪失、パフォーマンス低下、ユーザー被害。
Training Data Poisoning:
脆弱性要因:トレーニングデータおよびデータソースの不十分な検証/確認。
影響:評判喪失、モデル完全性喪失、財務損失。
III. 関連研究
MITREやOWASPによる研究以外にもMLシステム向けの脅威分析手法やMLシステム向けの安全保障解析手法が提案されている。
Statystyki
「Prompt Injection」は高い確率で発生し、「Training Data Poisoning」は中程度の確率で発生する可能性がある。
それぞれの脆弱性要因と影響が示されている。