既存の脆弱性検出データセットには重大な問題があり、それらを用いて訓練したコード言語モデルの性能は現実の脆弱性検出に適用できないことが明らかになった。新しいデータセット「PRIMEVUL」を提案し、より現実的な評価手法を導入することで、現行のコード言語モデルには脆弱性検出に必要な能力が大幅に不足していることが示された。