大規模言語モデルの性能は、トレーニングデータの汚染によって歪められる可能性がある。本論文では、データ汚染とモデル汚染の両方の検出手法を包括的に調査し、オープンソースのLLMSanitizeライブラリを提供する。