Concepts de base
CLMのパフォーマンスへの影響を評価し、最新データやカスタマイズされたデータがデータ汚染脅威を緩和するかどうかを明らかにする。
Résumé
この研究は、コード言語モデル(CLM)のパフォーマンスにおけるデータ汚染の影響を評価しています。異なる年度やカテゴリーで収集されたPythonコードグループについて、CLMsのPass@kスコアが示されています。さらに、異なるカウンターメジャー(最新データ、カスタマイズされたデータ、リファクタリングされたデータ)がCLMsのパフォーマンスに与える影響も検証されています。
Code-2018 - Code-2023:
- CLMsは一般的に安定したパフォーマンスを示す。
- 最新のCode-2023では以前よりも高いパフォーマンスが観測される。
- Copilotは他のモデルよりも優れた結果を示す。
カウンタメジャー:
- カスタマイズされたベンチマークではCLMsは良好なパフォーマンスを発揮する。
- リファクタリング操作によってCLMsのパフォーマンスが変化する。
Stats
2,493,174個以上のPython関数が収集されました。
コード類似性メトリックとしてLevenshtein距離、Jaccard類似度などが使用されました。
Citations
"CLMsは最新コードで以前よりも高いパフォーマンスを発揮する可能性がある。"
"カスタマイズされたベンチマークではCLMsは良好なパフォーマンスを発揮する。"