Keskeiset käsitteet
Compiler intermediate representations can enhance multilingual capabilities and cross-lingual transfer in Code-LMs.
Tiivistelmä
コンパイラの中間表現を活用することで、Code-LMの多言語能力とクロスリンガル転送を向上させることができます。この研究では、SLTransデータセットを作成し、6つの確立されたCode-LMに対して継続的な事前トレーニングを行いました。結果は、IRのグラウンディングがプロンプトの堅牢性、多言語コード補完、コード理解、および命令に従う能力に大幅な性能向上をもたらすことを示しています。
Tilastot
SLTransデータセットは約4Mのトレーニング例を含みます。
IRCoderモデルはさまざまなタスクやプログラミング言語で大幅な性能向上を示しました。
モデルのサイズは1.1Bから7.3Bパラメータまで範囲があります。
Lainaukset
"Grounding of heterogeneous source code languages in the same IR accounts for the majority of performance gains."
"IR grounding brings substantial performance gains in prompt robustness, multilingual code completion, code understanding, and instruction following."
"Our results indicate that the IR grounding hasn't gotten in the way so far."