本論文は、ソフトウェアの脆弱性検出のための新しいフレームワークSCALEを提案している。SCATEは以下の3つの主要モジュールから構成される:
コメントツリーの構築: 大規模言語モデル(LLM)を使ってコードスニペットに自然言語のコメントを生成し、抽象構文木(AST)にコメントノードを追加することで、コード文の意味論を強化する。
構造化された自然言語コメントツリーの構築: コードの構文テンプレートとコメントツリーを組み合わせることで、コードの実行シーケンスを明示的に表現する。
SCT強化表現: 構築したSCTを活用してモデルがより効果的に脆弱性パターンを学習できるようにする。
実験結果は、SCATEが既存の最良のベースラインと比較して、FFMPeg+Qemu、Reveal、SVulDデータセットにおいて、それぞれF1スコアで2.96%、13.47%、1.17%の改善を示したことを示している。さらに、SCATEはCodeBERTやEPVDなどの他の事前学習モデルにも適用でき、F1スコアで1.37%から10.87%の性能向上を達成した。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések