本研究では、LLMの設計とテストの能力を評価するため、8つの代表的なベンチマークを使用して調査を行った。最新の対話型LLMを使用して、Verilogの機能コードとテストベンチを生成させ、その性能と限界を検討した。その結果、ChatGPT-4は設計生成では良好な結果を示したが、テストベンチの生成では課題があることが分かった。一方、ChatGPT-3.5は設計とテストの両方で十分な性能を発揮できなかった。また、Bard、HuggingChatなどの他のLLMも、仕様に沿ったVerilogコードの生成に失敗した。本研究では、Tiny Tapeout 3のプラットフォームを使用して、生成したベンチマークをテープアウトし、実際のチップ上で動作確認を行った。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問