本文提出了CodeLinguaNexus (CLNX),一個用於增強大型語言模型在C/C++漏洞引入提交識別任務上性能的中間件框架。CLNX通過兩個階段的自然化過程來實現這一目標:
結構級自然化:CLNX首先將複雜的C/C++程序結構線性化,並縮短其長度,以提高大型語言模型的理解能力。
標記級自然化:CLNX將C/C++中與自然語言差異較大的特殊符號轉換為自然語言表示,進一步增強大型語言模型的理解。
實驗結果表明,CLNX顯著提高了大型語言模型在C/C++漏洞引入提交識別任務上的性能,並且CLNX裝備的CodeBERT達到了新的最佳水平。此外,CLNX裝備的CodeBERT在現實世界的開源軟件中發現了38個漏洞,證明了CLNX幫助大型語言模型報告0-day C/C++漏洞的能力。
翻译成其他语言
从原文生成
arxiv.org
从中提取的关键见解
by Zeqing Qin, ... 在 arxiv.org 09-12-2024
https://arxiv.org/pdf/2409.07407.pdf更深入的查询