Der Artikel beschreibt einen Ansatz zur automatischen Datenerweiterung, um die Fähigkeiten von Großsprachmodellen (LLMs) im Bereich des Chip-Designs zu verbessern.
Zunächst wird ein zweistufiger Datenerweiterungsprozess für die Verilog-Codegenerierung vorgestellt. In der ersten Stufe wird eine einfache Vervollständigung des Verilog-Codes verwendet, um die Grundkenntnisse des Modells zu erweitern. In der zweiten Stufe wird eine regelbasierte Programm-Analyse-Methode eingesetzt, um eine genauere Ausrichtung zwischen natürlicher Sprache und Verilog-Semantik zu erreichen.
Für die Verilog-Reparatur wird ein regelbasierter Ansatz verwendet, um fehlerhafte Verilog-Programme zu generieren und diese mit dem Feedback der EDA-Tools (Yosys) zu paaren.
Für die Generierung von EDA-Skripten wird beobachtet, dass bestehende LLMs (wie GPT-3.5) zwar die Skripte nicht direkt generieren können, aber deren Beschreibungen in natürlicher Sprache gut verstehen. Daher wird ein Ansatz vorgeschlagen, bei dem existierende LLMs verwendet werden, um natürlichsprachliche Beschreibungen zu den EDA-Skripten zu erstellen.
Die Evaluation zeigt, dass der vorgeschlagene Datenerweiterungsrahmen die Leistung von feinabgestimmten LLMs deutlich verbessert. Im Vergleich zu Baseline-Modellen wie GPT-3.5 und dem Stand der Technik erreichen die feinabgestimmten Modelle höhere Erfolgsquoten bei der Verilog-Generierung, Verilog-Reparatur und EDA-Skript-Generierung.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Kaiyan Chang... في arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11202.pdfاستفسارات أعمق