核心概念
LLMエージェントは、CVE説明を与えられれば、実世界の1日以内の脆弱性の87%を自律的に悪用できる。
摘要
本研究では、15の実世界の1日以内の脆弱性からなるベンチマークを収集し、LLMエージェントがこれらの脆弱性を自律的に悪用できることを示した。
具体的には以下の通り:
- 15の脆弱性のうち、CVE説明を与えられた場合、GPT-4エージェントは87%の脆弱性を悪用できた。一方、他のLLMモデルやオープンソースの脆弱性スキャナーは0%だった。
- CVE説明を与えない場合、GPT-4の成功率は7%に低下した。これは、脆弱性の発見が悪用よりも困難であることを示唆している。
- GPT-4は、ウェブサイトの脆弱性だけでなく、Pythonパッケージや容器管理ソフトウェアの脆弱性も自律的に悪用できた。
- 1回の攻撃に要するコストは平均$3.52で、人間の労力に比べて2.8倍安価であった。
これらの結果は、LLMエージェントの脆弱性悪用能力の高さを示しており、セキュリティコミュニティとLLMプロバイダーは、LLMエージェントの広範な展開について慎重に検討する必要があることを示唆している。
統計資料
攻撃に要する平均ステップ数は24.3
GPT-4は、CVE説明なしでも33.3%の脆弱性を特定できた
引述
「LLMエージェントは、CVE説明を与えられれば、実世界の1日以内の脆弱性の87%を自律的に悪用できる」
「GPT-4の成功率は、CVE説明なしでは7%に低下した」