大規模言語モデルはサイバーセキュリティ分野での応用可能性を示しているが、信頼性の問題も抱えている。本研究では、現実的なサイバーセキュリティシナリオに基づいた包括的なベンチマークを提案し、7つの最先端モデルの性能を評価する。