Core Concepts
コード言語モデルは、形だけでなく計算的意味論も学習していることを示唆する。
Abstract
この記事では、プリトレーニングされた言語モデルがコードのセマンティクスをどの程度理解しているかに焦点を当てています。実験結果から、モデルが単なる頻度や共起パターンだけでなく、コードの計算的意味論も学習していることが示されました。特に、変数名の一貫性や条件文の再構成など、異なる形式でも正確に予測できることが強調されました。
Stats
プリトレーニングされた言語モデルは、オリジナルおよび変換後のプログラム内で演算子を正確に予測する能力を示す。
CodeBERTおよびGraphCodeBERTは、元のプログラムおよび変換後のプログラムで高い精度を達成。
GraphCodeBERTは、変数名一貫性に対する影響が限定的であり、意味論的理解を示す。
Quotes
"PLMsは単なる頻度情報ではなく、コードの意味論もエンコードしていることがわかります。"
"変数名一貫性に関しても影響が限定的であり、モデルは異なる形式でも正確に予測できます。"