本研究では、大規模言語モデル(LLM)のマルチ言語機能を活用し、より堅牢で正確なコード生成を実現するための「マルチプログラミング言語アンサンブル(MPLE)」フレームワークを提案している。
主な特徴は以下の通り:
初期コード生成: LLMにタスク記述を与えて、主要な言語(例: Python)でコードを生成する。
マルチ言語サンプリングと翻訳: 生成されたコードが全てのテストケースに合格しない場合、別の言語(例: Java、C++)でコードを生成し、主要言語に翻訳する。
反復的な改善: 翻訳されたコードをテストし、合格するまで別の言語でコードを生成・翻訳する。これを繰り返すことで、言語固有のエラーを軽減し、より堅牢なコードを生成する。
アンサンブル統合: 各言語固有のコード生成を「弱い専門家」として扱い、それらの出力を統合することで、言語固有のバイアスを軽減する。
さらに、リフレクションアルゴリズムやMCTSなどの手法との統合も示しており、これらの手法と組み合わせることで、コード生成の質をさらに向上させることができる。
実験の結果、提案手法はベースラインと比較して最大17.92%の性能向上を達成し、HumanEvalベンチマークでは96.25%の正解率を達成するなど、優れた結果を示している。これらの成果は、マルチ言語アンサンブルアプローチがLLMのコード生成能力を大幅に向上させることを示している。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania