Concepts de base
大規模言語モデル (LLM) のシステムプロンプトを難読化することで、知的財産を保護しつつ、システム自体の機能を維持する。
Résumé
本論文では、大規模言語モデル (LLM) のシステムプロンプトを難読化する手法を提案している。システムプロンプトは、LLMの動作を指定する重要な情報であり、知的財産として扱われることが多い。しかし、プロンプト注入攻撃によってシステムプロンプトを簡単に抽出できてしまうという問題がある。
本研究では、オリジナルのシステムプロンプトと同等の機能を維持しつつ、プロンプトの内容を難読化する手法を提案している。その核心的なアイデアは、オリジナルのシステムプロンプトと同じ機能を持つが、難読化されたプロンプトからはオリジナルのプロンプトに関する情報を引き出せないような表現を見つけることである。
具体的には、最適化ベースの手法を用いて、機能を維持しつつ難読化されたプロンプト表現を見つける。8つの異なるメトリックを用いて、オリジナルのプロンプトと難読化されたプロンプトの性能を比較し、難読化されたプロンプトがオリジナルと同等の性能を持つことを示している。さらに、ブラックボックスおよびホワイトボックスの3つの異なる難読化解除攻撃を行い、難読化されたプロンプトからはオリジナルのプロンプトに関する有意味な情報を一貫して抽出できないことを示している。
全体として、本研究では、知的財産を保護しつつ、オリジナルのシステムプロンプトと同等の機能を維持できるプロンプト難読化手法を提案している。
Stats
大規模言語モデルは数十億パラメータを持ち、膨大なテキストデータで事前学習されている。
システムプロンプトは、LLMの動作を指定する重要な情報であり、知的財産として扱われることが多い。
プロンプト注入攻撃によって、システムプロンプトを簡単に抽出できてしまうという問題がある。
Citations
"Services such as AI pair programming with GitHub Copilot [1], information enhancement with retrieval augmented generation (RAG) systems based on large language models (LLMs) [2], or email and calendar organization with integrations like OpenAI's GPTs [3] and plugins [4] are all possible because of LLM-integrated tools."
"Tailoring general-purpose foundation models to specified tasks can be done via fine-tuning and prompting. During this process, the model is trained or prompted to learn how to respond to a specific request."
"The flexibility of prompting and the ease of use come with a price: The content of the system prompt can easily be leaked, even word for word, with carefully crafted user input, also known as prompt injection attacks [12], [13], [14], [15]."