Concepts de base
提案されたPEマルウェアオントロジーは、静的マルウェア分析における統一された意味論スキーマを提供し、解釈可能な結果を生み出すことを目指しています。
Résumé
この記事は、情報セキュリティ領域におけるPEマルウェア検出に焦点を当て、提案されたPE Malware Ontologyの重要性と目的を説明しています。以下は内容の概要です:
1. 導入
- 機械学習(ML)の適用が増加しているが、多くのML分類器は解釈可能な根拠を提供できない。
- 説明可能な手法への需要から、さまざまな手法が開発されつつある。
2. 動機付け
- データセットの重要性とAIツールキットへの影響。
- EMBERデータセットやSoReLデータセットが紹介される。
3. 研究目的
- PEマルウェアドメイン向けの統一された意味論スキーマを提供すること。
- 結果の解釈性確保。
- 実験の再現性と比較可能性確保。
4. 貢献
- PEマルウェアファイル向け再利用可能な意味論スキーマの開発。
- MAEC標準に基づく行動マッピング。
5. ページ構成
- 必要事項に関する予備知識(ontologies and description logics)
- 使用したデータソース(EMBERデータセット)
- データ前処理(MAEC行動へのAPI関数マッピング)
- PE Malware Ontology(PEファイル特徴や行動クラス)
- 論理プロパティとモジュール
6. データセット生成
- EMBERデータセットから異なるサイズのデータセット生成。
- 各データセットには陽性サンプル(マルウェア)と陰性サンプル(良性)が含まれる。
Stats
"EMBERデータセットには合計110万サンプルが含まれており、400,000件の悪意あるサンプル、400,000件の良性サンプル、300,000件の未ラベル付きサンプルが含まれています。"
"EMBERデータセットから生成された1000件、10000件、100000件、800000件規模の各データセットがあります。"