本文提出了CodeLinguaNexus (CLNX),一個用於增強大型語言模型在C/C++漏洞引入提交識別任務上性能的中間件框架。CLNX通過兩個階段的自然化過程來實現這一目標:
結構級自然化:CLNX首先將複雜的C/C++程序結構線性化,並縮短其長度,以提高大型語言模型的理解能力。
標記級自然化:CLNX將C/C++中與自然語言差異較大的特殊符號轉換為自然語言表示,進一步增強大型語言模型的理解。
實驗結果表明,CLNX顯著提高了大型語言模型在C/C++漏洞引入提交識別任務上的性能,並且CLNX裝備的CodeBERT達到了新的最佳水平。此外,CLNX裝備的CodeBERT在現實世界的開源軟件中發現了38個漏洞,證明了CLNX幫助大型語言模型報告0-day C/C++漏洞的能力。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Zeqing Qin, ... lúc arxiv.org 09-12-2024
https://arxiv.org/pdf/2409.07407.pdfYêu cầu sâu hơn