Core Concepts
モデルへのテストデータの漏洩を防ぎ、LLMの比較評価を向上させるためにプライベートベンチマーキングが提案されている。
Abstract
大規模言語モデル(LLMs)の評価における問題点として、テストデータの漏洩が指摘されています。これに対処するために、プライベートベンチマーキングが提案されています。この手法では、テストデータセットをモデルから隠し、評価結果だけを公開します。様々なシナリオで私的なベンチマークを実行する方法や、品質監査を行う方法が提案されています。また、既存の解決策や新しいソリューションについても議論されています。これにより、競争力を損なうことなく企業間で共有可能な評価プラットフォームが作成される可能性が示唆されています。
Stats
テストデータセットはインターネット上で一般的に見つかります。
研究者はAPIやインタフェース経由でLLMにアクセスし、データ漏洩が発生している可能性があります。
42%の論文でGPT-3.5およびGPT-4への4.7M個以上のテストサンプルが漏洩している可能性があります。
Quotes
"私たちは問題点として、大規模言語モデルトレーニングデータ内のテストデータ汚染を強調しています。"
"私たちの研究は、先例のない解決策であるプライベート・ベンチマーク化を提案しました。"
"高品質なベンチマークは改善に役立ちますが、低品質なものは誤った結果をもたらす可能性があります。"