本研究は、大規模言語モデル(LLM)のサイバーセキュリティ分野での応用可能性を包括的に評価するためのベンチマークを提案している。
まず、知識抽出、理解、推論の3つの側面から評価するタスクを設計した。知識抽出タスクでは、MITRE ATT&CKとCWEから多肢選択式の問題を作成した。理解タスクでは、2024年に公開されたCVEを使って真偽問題を作成した。推論タスクでは、CISA発行のセキュリティアドバイザリから危険度評価を行う問題を作成した。
次に、7つの最先端LLMモデル(ChatGPT-4、ChatGPT-3.5、Llama3-70b、Llama3-8b、Gemini-Pro、Mistral-7B、Mixtral-8x7b)を評価した。その結果、閉鎖型モデルのChatGPT-4とGemini-Proが全体的に優れた性能を示した。一方、オープンソースモデルのLlama3-70bも一部のタスクで良い結果を出した。
さらに分析を行い、以下の知見を得た:
これらの知見は、LLMをサイバーセキュリティアドバイザとして信頼性高く活用するための課題を示している。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Dipkamal Bhu... في arxiv.org 09-12-2024
https://arxiv.org/pdf/2405.20441.pdfاستفسارات أعمق