この研究は、コード言語モデル(CLM)のパフォーマンスにおけるデータ汚染の影響を評価しています。異なる年度やカテゴリーで収集されたPythonコードグループについて、CLMsのPass@kスコアが示されています。さらに、異なるカウンターメジャー(最新データ、カスタマイズされたデータ、リファクタリングされたデータ)がCLMsのパフォーマンスに与える影響も検証されています。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Jialun Cao,W... lúc arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16898.pdfYêu cầu sâu hơn