핵심 개념
大規模な言語モデルのコード生成能力を評価する際のデータ汚染の重要性を明確に示す。
초록
この研究では、大規模な言語モデルがプログラム生成タスクで優れたパフォーマンスを達成している一方、その評価における潜在的なデータ汚染への懸念が高まっています。本研究では、人気のあるコード生成ベンチマークにおけるデータ汚染を包括的に調査し、事前学習コーパスとの重複を表面レベルと意味レベルで正確に定量化します。実験では、人気のあるコード生成ベンチマークとオープントレーニングコーパスとの間に重要な重複があることが示され、類似した解決策がトレーニング中に見られた問題でモデルが著しく優れたパフォーマンスを発揮することも示されています。また、モデルサイズや問題の難易度、質問の長さなどがモデルの記憶や一般化に与える影響についても包括的な分析が行われています。
통계
大規模な言語モデルはプログラム生成タスクで3.6%から20.8%の解答をトレーニング中に見ていました。
StarCoderBase-15.5BはMBPPで最上位10%と最下位10%間で72.0%対22.0%の精度差を示しました。
CodeGen-NL-16BはMBPP全体で19.6%だった精度がStarCoderBase-15.5Bが見た104問題では11.5%まで低下しました。
인용구
"大規模な言語モデルはトレーニング中に似た解決策を見た問題で著しく優れたパフォーマンスを発揮します。"
"解決策がトレーニング中に見られた質問ほど、モデルは優れた結果を出します。"
"解決策へのアクセスは、特定の自然言語記述と関連付けることが難しい場合もあります。"