この研究では、大規模な言語モデルがプログラム生成タスクで優れたパフォーマンスを達成している一方、その評価における潜在的なデータ汚染への懸念が高まっています。本研究では、人気のあるコード生成ベンチマークにおけるデータ汚染を包括的に調査し、事前学習コーパスとの重複を表面レベルと意味レベルで正確に定量化します。実験では、人気のあるコード生成ベンチマークとオープントレーニングコーパスとの間に重要な重複があることが示され、類似した解決策がトレーニング中に見られた問題でモデルが著しく優れたパフォーマンスを発揮することも示されています。また、モデルサイズや問題の難易度、質問の長さなどがモデルの記憶や一般化に与える影響についても包括的な分析が行われています。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Martin Ridde... at arxiv.org 03-11-2024
https://arxiv.org/pdf/2403.04811.pdfDeeper Inquiries