本研究は、ChatGPTのソフトウェアの脆弱性に関する様々なタスクでの性能を包括的に評価した。主な結果は以下の通り:
脆弱性検出: ChatGPTは既存の最先端手法に劣る。特に、NULL参照やアクセス制御の脆弱性は検出できるが、その他の脆弱性は苦手。また、ChatGPTは脆弱性の分類に自信がなく、容易に人為的な指示に惑わされる。
脆弱性評価: 脆弱性コードのみでは評価精度が低いが、関連情報を提供すると精度が向上する。ただし、脆弱性の種類によって精度の変化が大きく、一貫性に欠ける。
脆弱性位置特定: 脆弱性の位置特定には一定の能力を示すが、脆弱性の種類によって性能が大きく異なる。
脆弱性修復: 脆弱性の修復能力は限定的で、関連情報の有無に関わらず十分ではない。
脆弱性記述生成: 脆弱性の種類によって記述生成精度にばらつきがあり、詳細情報の正確性に課題がある。
総じて、ChatGPTは一部の課題では良好な性能を示すものの、脆弱性の微妙な違いを理解し、詳細に記述する能力に課題がある。本研究の評価フレームワークは、ChatGPTのソフトウェア脆弱性対応能力の向上に役立つ知見を提供する。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問