Alapfogalmak
LLMは一部の脆弱性分析タスクでは良好な性能を示すが、コード脆弱性の微妙な違いを理解し、脆弱性を詳細に説明する能力には限界がある。
Kivonat
本論文は、オープンソースLLMの脆弱性分析タスクに関する包括的な評価を行っている。
まず、LLMの脆弱性検出能力を評価し、既存の手法と比較した。その結果、ファインチューニング後のLLMは、トランスフォーマーベースの手法に劣るものの、グラフベースの手法と同等の性能を示した。一方、フューショット設定のLLMは既存手法を下回る性能であった。
次に、LLMの脆弱性評価能力を評価した。コード情報のみでは評価精度が低いが、CVEの説明やコミットメッセージなどの追加情報を与えることで大幅に改善された。
また、LLMの脆弱性位置特定能力を評価した。フューショット設定では限界があるが、ファインチューニングにより性能が向上した。特にMistralモデルが大幅な改善を示した。
最後に、LLMの脆弱性記述能力を評価した。CodeLlama、StarCoder、WizardCoder、Mistralなどのモデルが過去の記述データから良好に学習できることが分かった。
全体として、LLMは一部の脆弱性分析タスクでは良好な性能を示すが、コード脆弱性の微妙な違いを理解し、脆弱性を詳細に説明する能力には限界がある。本研究の評価パイプラインは、LLMの脆弱性分析能力の向上に役立つ知見を提供している。
Statisztikák
脆弱性(CWE-119)の例:
Linux カーネル 2.6.39.2 以前のバージョンには、net/wireless/nl80211.cファイルにおける複数のバッファオーバーフローが存在し、CAP_NET_ADMINの権限を持つローカルユーザーが長いSSID値を使ってスキャン操作を行うことで特権昇格が可能であった。このバグは2.6.29-rc4以降のバージョンから存在していた。