本研究では、8つの独立したAIエージェントからなる革新的なマルチエージェントAIモデルを提案しています。各エージェントは、GPT-4、GPT-4 Turbo、GPT-3.5、GPT-3.5 Turbo、Google Bard、LLaMA、Hugging Faceなどの異なる高度な言語モデルと連携し、共通の説明に基づいてコードを生成します。
提案モデルの中核となるのは、検証エージェントです。この検証エージェントの主な役割は、他のエージェントが生成したコードを徹底的に評価することです。検証エージェントはHumanEval基準を活用し、生成されたコードの構文的正確性、プロンプトへの適合性、計算効率、コードの正確性などを評価します。
初期の結果では、GPT-3.5 Turboモデルの性能が他のモデルと比較して優れていることが示されました。10個の一般的な高レベルの入力説明を提供した際、GPT-3.5 Turboは7つのケースで正確なコードを生成しました。
今後の目標は、MBPP基準の統合によって評価プロセスをさらに強化し、入力説明を10から50に増やすことで、より詳細な分析を行うことです。さらに、20人の実践者とモデルを共有し、フィードバックを収集することで、技術的な優秀性と実用性の両面から言語モデルの評価を改善していきます。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문