本研究論文探討了利用電子設計自動化 (EDA) 工具的反饋來改善大型語言模型 (LLM) 生成的 Verilog 程式碼的可能性。研究人員開發了一個名為 AutoChip 的開源框架,該框架將對話式 LLM 與 Verilog 編譯器和模擬器的輸出相結合,以迭代方式生成和修復 Verilog 程式碼。
研究團隊使用 VerilogEval 基準測試集評估了 AutoChip 框架的效能。VerilogEval 包含來自 HDLBits 的問題和測試平台,這些問題涵蓋了從簡單的 Verilog 語法到更抽象的時序電路和除錯等各種難度級別。
研究人員評估了兩種反饋模式:「完整上下文」和「簡潔」。「完整上下文」模式會將所有提示和回應附加到與 LLM 的「對話」中,而「簡潔」模式則僅提示最近一次迭代的反饋。評估指標包括成功生成的設計百分比、生成成功設計所需的平均輸入和輸出標記數量,以及以美元計算的模型查詢成本。
研究結果顯示,對於較小的 LLM(例如 Claude 3 Haiku、GPT-3.5-Turbo 和 GPT-4o-Mini),EDA 工具反饋並沒有顯著提高程式碼品質。然而,對於最複雜的模型 GPT-4o,使用工具反饋始終能提高正確率。這表明更強大的模型能夠更好地利用錯誤訊息和模擬結果來推斷設計和實現錯誤的原因。
為了降低成本,研究人員還評估了將小型模型與較大的模型(例如 GPT-4o)組合使用的效果。結果顯示,在使用較小型模型進行一系列查詢後,最後使用 GPT-4o 進行迭代可以顯著提高成功率,同時將成本保持在較低水平。
總之,本研究表明 EDA 工具反饋可以改善 LLM 生成的 Verilog 程式碼,但效果取決於所使用的 LLM。對於像 GPT-4o 這樣更強大的模型,工具反饋可以顯著提高程式碼品質和成功率,同時降低成本。然而,對於較小的模型,效益則較不明顯。
翻譯成其他語言
從原文內容
arxiv.org
深入探究