Core Concepts
最新のコード事前学習言語モデルが補助関数を利用する能力を包括的に評価しました。
Abstract
補助関数は言語モデルのコード生成能力を向上させる有望な要素です。
人間が作成した評価セット「HumanExtension」により、補助関数の影響を多面的に検証しました。
現在の言語モデルは適切な補助関数を利用する能力がありますが、位置や名前、docstring の有無などによって変動します。
実装スタイル分析では、モデルが補助関数を呼び出すことがより安全かつ正確であることが示されました。
Abstract:
補助関数は言語モデルのコード生成能力向上に有益。
HumanExtensionセットで実験を行い、現在のLLMsは補助関数を適切に活用可能。
位置や名前、docstring の有無などが結果に影響。
Introduction:
プログラム合成におけるプロンプト強化方法として注目されている。
補助関数のシステマティックな評価手法不足。
Dataset:
Python例題から拡張された人間工学的な例題151問収録したHumanExtensionセット構築。
Experiments:
単一および複数補助関数実験でLLMsの性能評価。
黒箱スタイル実装(補助関数呼び出し)と白箱スタイル実装(非呼び出し)比較。
Conclusion:
言語モデルは適切な補助関数呼び出しで高いパフォーマンスを示す傾向あり。
ユーザー嗜好評価では黒箱スタイル実装が好まれる傾向。将来的な研究方向として考慮すべき点。
Stats
最新の競争力あるモデルCodeLLaMAPython 34Bでは、Oracle設定で大幅な性能改善観察。(0.2028)
Quotes
"現在のLLMsは適切な補助関数を活用する能力がある。"
"黒箱スタイル実装は明快かつ簡潔であり、ソフトウェアエンジニアリング分野では好まれます。"