核心概念
既存のデータセットには問題があり、CommitBenchは高品質なデータセットを提供することでコミットメッセージ生成の研究を加速させる。
要約
コミットメッセージの重要性、既存データセットの問題点、CommitBenchの作成プロセス、異なるアプローチの比較結果が含まれています。新しい大規模データセットであるCommitBenchは、コミットメッセージ生成研究において重要な役割を果たす可能性があります。
統計
1日あたり10億以上のコミットメッセージが生成される。
CommitBenchには約166万件の高品質なコミットが含まれている。
MCMDデータセットからフィルタリングした結果、40万件未満のサンプルが残った。
引用
"開発者は情報量豊かなコミットメッセージを評価しています。"
"既存データセットには小さなサイズや低品質、ライセンス制限への配慮が不足しています。"
"CommitBenchは将来の研究における基準となる包括的で注意深いデータセットである必要があります。"