Core Concepts
マスクド言語モデルベースの固有表現抽出モデルにおけるトレーニングデータのメモリ化を検出するためのプロンプトの影響を分析する。
Abstract
本研究では、マスクド言語モデルベースの固有表現抽出モデルにおけるトレーニングデータのメモリ化を検出するためのプロンプトの影響を分析している。具体的には以下の点を明らかにしている:
400種類の自動生成されたプロンプトを使用し、同一モデルにおいてプロンプトの選択によってメモリ化検出の精度が最大16パーセントポイント変動することを示した。
プロンプトの性能はモデルに依存するが、異なる名称セットにも一定程度一般化することを明らかにした。
プロンプト生成や組み合わせの手法を適用することで、プロンプトセットの最良プロンプトよりも最大2パーセントポイント精度が向上することを示した。
プロンプトの特性、含まれるトークン、モデルの自己注意重みといった要因がプロンプトの性能に影響することを包括的に分析した。
Stats
最良プロンプトと最悪プロンプトの精度差は最大16パーセントポイントに及ぶ。
プロンプトの性能はモデルに依存するが、異なる名称セットにも一定程度一般化する。
プロンプト生成や組み合わせの手法を適用することで、プロンプトセットの最良プロンプトよりも最大2パーセントポイント精度が向上する。
Quotes
"メモリ化検出は使用するプロンプトに非常に敏感である。同一モデルにおいて、プロンプトの選択によって最大16パーセントポイントの精度差が生じる。"
"プロンプトの性能はモデルに依存するが、異なる名称セットにも一定程度一般化する。"
"プロンプト生成や組み合わせの手法を適用することで、プロンプトセットの最良プロンプトよりも最大2パーセントポイント精度が向上する。"