核心概念
FVEval 是一個全面的基準測試和評估框架,用於評估大型語言模型 (LLM) 在數位硬體形式驗證 (FV) 中的性能,特別關注其生成 SystemVerilog 斷言 (SVA) 的能力。
摘要
FVEval:評估大型語言模型在數位硬體形式驗證中的能力
這篇研究論文介紹了 FVEval,一個用於評估大型語言模型 (LLM) 在數位硬體形式驗證 (FV) 任務中性能的全面基準測試和評估框架。由於形式驗證需要大量的人工來建立測試平台和斷言,因此利用 LLM 自動化這些任務具有極大的潛力。然而,目前缺乏對 LLM 在 FV 任務中性能的全面評估。
FVEval 包含三個子基準測試:
NL2SVA-Human
**目標:**評估 LLM 從真實世界的、人工編寫的測試平台和高階設計功能規範生成 SVA 斷言的能力。
**資料集:**涵蓋常見單元級模組(如 FIFO 佇列、仲裁器、硬體計數器、RAM 單元和有限狀態機)的人工編寫測試平台和斷言。
**輸入:**測試平台程式碼(SystemVerilog)和預期斷言的自然語言描述。
**預期輸出:**與人工編寫的斷言在功能上相匹配的 SVA 斷言。
NL2SVA-Machine
**目標:**評估 LLM 靈活處理各種形式屬性的自然語言規範並以 SVA 語法準確地表述相同形式邏輯的能力。
**資料集:**通過隨機生成 SVA 斷言並使用 LLM 生成相應的自然語言描述,合成建立了 300 個測試案例。
**輸入:**形式邏輯公式的自然語言描述。
**預期輸出:**與輸入邏輯表達式相匹配的 SVA 斷言。
Design2SVA
**目標:**評估 LLM 在沒有人工指導的情況下,直接從設計 RTL 生成相關 SVA 斷言的能力。
**資料集:**使用參數化模板,合成了 96 個算術流水線和 96 個有限狀態機 (FSM) 的測試案例。
**輸入:**設計 RTL 程式碼和測試平台介面。
**預期輸出:**針對給定設計 RTL 的有效且相關的 SVA 斷言,以及任何必要的輔助程式碼。