Core Concepts
CLMのパフォーマンスへの影響を評価し、最新データやカスタマイズされたデータがデータ汚染脅威を緩和するかどうかを明らかにする。
Abstract
この研究は、コード言語モデル(CLM)のパフォーマンスにおけるデータ汚染の影響を評価しています。異なる年度やカテゴリーで収集されたPythonコードグループについて、CLMsのPass@kスコアが示されています。さらに、異なるカウンターメジャー(最新データ、カスタマイズされたデータ、リファクタリングされたデータ)がCLMsのパフォーマンスに与える影響も検証されています。
Code-2018 - Code-2023:
CLMsは一般的に安定したパフォーマンスを示す。
最新のCode-2023では以前よりも高いパフォーマンスが観測される。
Copilotは他のモデルよりも優れた結果を示す。
カウンタメジャー:
カスタマイズされたベンチマークではCLMsは良好なパフォーマンスを発揮する。
リファクタリング操作によってCLMsのパフォーマンスが変化する。
Stats
2,493,174個以上のPython関数が収集されました。
コード類似性メトリックとしてLevenshtein距離、Jaccard類似度などが使用されました。
Quotes
"CLMsは最新コードで以前よりも高いパフォーマンスを発揮する可能性がある。"
"カスタマイズされたベンチマークではCLMsは良好なパフォーマンスを発揮する。"