核心概念
Retrieval-Augmented Generation (RAG) アプリケーションは、外部知識ベースの利用により精度と知識範囲を向上させる一方で、悪意のあるクエリを通じてプライベートデータが抽出される可能性があり、効果的な防御策の必要性が強調されている。
摘要
RAG アプリケーションにおけるプライバシーリスクとRAG-Thiefによる攻撃手法
本稿は、Retrieval-Augmented Generation (RAG) アプリケーションに存在するプライバシーリスクと、RAG-Thiefと呼ばれるエージェントベースの自動化されたプライバシー攻撃について詳述した研究論文である。
大規模言語モデル (LLM) は、知識ベースの質問応答やコンテンツ生成において目覚ましい成果を収めているものの、ハルシネーションの生成や最新データへのアクセス不足など、依然として課題を抱えている。RAGは、外部知識ベースから関連性の高い情報チャンクを抽出し、言語モデルのコンテキストプロンプトとして使用することで、LLMのパフォーマンスを向上させる技術として注目されている。RAGは、医療、金融、法律、科学研究など、様々な分野で応用され、大きな成果を上げている。
しかし、RAGシステムは、プライベート知識ベースからの情報漏洩というデータプライバシーリスクを抱えている。攻撃者は、プロンプトインジェクション攻撃やLLMとの複数回のやり取りを通じて、注意深く設計された質問を作成することで、知識ベースから徐々に情報のスニペットを抽出することができる。
RAG-Thiefは、RAGアプリケーションのプライベート知識ベースからスケーラブルな量のプライベートデータを抽出することができる、エージェントベースの自動化されたプライバシー攻撃である。従来のプロンプトインジェクションやランダム攻撃とは異なり、RAG-Thiefは自己改善メカニズムを採用しており、抽出されたソースチャンクを基に、さらなる推論、連想思考、新たな敵対的クエリの生成を行い、後続のラウンドでより効果的な攻撃を可能にしている。
RAG-Thiefは、事前に定義された初期の敵対的クエリから始まり、エージェントは自動的にLLMにクエリを行い、情報チャンクを収集する。これらのチャンクに基づいて、RAGシステムに再び攻撃するための新しいクエリを生成し、追加の知識ベースセグメントを取得する。この反復的なアプローチを通じて、RAG-ThiefはLLMによって返されたプライベートな知識を継続的に収集する。