本論文では、大規模言語モデルの評価ベンチマークにおけるデータ汚染の検出手法を提案している。
まず、情報検索システムを用いて、評価ベンチマークデータとトレーニングデータの重複を特定する手法を示した。この手法は、オープンソースモデルのように、トレーニングデータが公開されている場合に有効である。
次に、TS-Guessing と呼ばれる新しい検出手法を提案した。これは、評価データの一部を隠し、言語モデルにその欠落部分を推測させることで、トレーニングデータとの重複を検出するものである。この手法は、トレーニングデータが非公開のクローズドソースモデルにも適用できる。
実験の結果、一部の商用言語モデルが、評価ベンチマークデータの欠落部分を高い確率で正解できることが示された。これは、モデルがトレーニング時にベンチマークデータを学習していた可能性を示唆している。
以上の結果から、現在の評価ベンチマークにはデータ汚染の問題が存在する可能性が指摘された。今後、より堅牢な評価手法の開発が求められる。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Chunyuan Den... at arxiv.org 04-05-2024
https://arxiv.org/pdf/2311.09783.pdfDeeper Inquiries