Основные понятия
LLMを用いたハードウェアコード生成の創造性を評価するフレームワークCreativEvalを提案し、主要なLLMモデルの創造性を比較評価した。
Аннотация
本研究では、LLMを用いたハードウェアコード生成の創造性を評価するためのフレームワークCreativEvalを提案した。このフレームワークでは、流暢性、柔軟性、独創性、精緻化の4つの創造性の下位要素を定量化し、評価する。
具体的には以下の手順で評価を行う:
- 流暢性: LLMが与えられた課題に対して生成する独自のVerillogソリューションの数を評価する。
- 柔軟性: 与えられた既存のVerillogモジュールに対して、LLMが異なる実装を生成できる能力を評価する。
- 独創性: LLMが生成したVerillogソリューションが標準的な実装からどの程度独創的かを評価する。
- 精緻化: LLMが複数の小さなVerillogモジュールを組み合わせて、より複雑な機能を持つモジュールを生成できる能力を評価する。
これらの4つの下位要素を総合して、LLMの創造性を定量的に評価する。
実験の結果、GPT-3.5が最も創造性が高いことが示された。一方、モデルサイズが大きくなるにつれ、創造性が若干低下する傾向が見られた。
今後の研究では、より多様なLLMモデルを評価し、創造性向上のための手法を探索していくことが期待される。
Статистика
GPT-3.5は流暢性、柔軟性、創造性の総合評価で最も高い結果を示した。
モデルサイズが大きくなるにつれ、創造性が若干低下する傾向がある。
CodeLlama-7Bが最も創造性が低い結果となった。
Цитаты
"LLMを用いたハードウェアコード生成の創造性を評価するフレームワークCreativEvalを提案した。"
"GPT-3.5が最も創造性が高いことが示された。"
"モデルサイズが大きくなるにつれ、創造性が若干低下する傾向が見られた。"