Alapfogalmak
LLMsは、セキュリティ関連のバグを一貫して特定することができず、その理由付けも正確ではない。
Kivonat
本論文は、LLMsがセキュリティ関連のバグを確実に特定し、理解することができるかどうかを包括的に評価するフレームワーク「SecLLMHolmes」を開発している。
8つの最先端LLMを228のコードシナリオに適用し、8つの調査次元で分析した結果、以下のことが明らかになった:
- LLMの性能はモデルやプロンプティング手法によって大きく異なるが、すべてのモデルに高い偽陽性率(FPR)がある。
- LLMの出力は非決定的で、ある1つのテストでも複数回実行すると答えが変わる。
- 脆弱性を正しく特定できた場合でも、その理由付けは多くの場合正しくない。
- LLMのチェーン・オブ・シンキング(COT)は頑健性がなく、単純な変更(関数名の変更、ライブラリ関数の使用など)で誤った答えを出してしまう。
- LLMは、実世界のプロジェクトにおける脆弱性の検出に失敗する。
これらの結果から、LLMが自動的な脆弱性検出に使用されるには、さらなる進化が必要であることが示された。本研究で開発したフレームワークは、今後のモデルの進歩を示すベンチマークとして機能する。
Statisztikák
脆弱性のある入力文字列の長さが、割り当てられたバッファサイズを超えると、バッファオーバーフローが発生する可能性がある。
関数の名前や変数名を変更したり、ライブラリ関数を追加するだけで、LLMの回答が26%と17%の場合で間違ってしまう。
Idézetek
"LLMsは、セキュリティ関連のバグを一貫して特定することができず、その理由付けも正確ではない。"
"LLMのチェーン・オブ・シンキング(COT)は頑健性がなく、単純な変更(関数名の変更、ライブラリ関数の使用など)で誤った答えを出してしまう。"