핵심 개념
Min-K%++は、トークン確率の正規化と標準化を行うことで、従来手法よりも高精度な事前学習データ検出を実現する。
초록
本論文は、大規模言語モデル(LLM)の事前学習データ検出手法を提案している。従来の手法であるMin-K%は、単純にトークン確率を用いていたが、著者らは、トークン確率を全語彙の統計情報で正規化・標準化することで、より有効な検出指標が得られると主張する。
具体的には以下の通り:
- Min-K%++は、トークン確率log p(xt|x<t)から、平均μx<tと標準偏差σx<tを引いて正規化する。
- これにより、ターゲットトークンの相対的な尤度が高いほど高スコアとなり、事前学習データを効果的に検出できる。
- 理論的には、この正規化項目が、LLMの最尤推定の最適化過程で陰に最小化されるため、信頼できる指標となることを示す。
- 実験では、WikiMIAベンチマークで従来手法を6.2%~10.5%改善し、MIMIRベンチマークでも参照モデルを必要としない手法としては最高性能を達成した。
- オンライン検出設定でも、Min-K%++が最も優れた性能を示した。
통계
事前学習データ検出の精度を示すAUROCスコアは、LLaMA-13Bモデルで84.8%に達した。
LLaMA-30Bモデルでは、AUROC 84.3%を記録した。
LLaMA-65Bモデルでは、AUROC 85.1%を達成した。
인용구
"Min-K%++は、トークン確率の正規化と標準化を行うことで、従来手法よりも高精度な事前学習データ検出を実現する。"
"理論的には、この正規化項目が、LLMの最尤推定の最適化過程で陰に最小化されるため、信頼できる指標となることを示す。"
"実験では、WikiMIAベンチマークで従来手法を6.2%~10.5%改善し、MIMIRベンチマークでも参照モデルを必要としない手法としては最高性能を達成した。"