Khái niệm cốt lõi
製品言語モデルから情報を抽出する新しい攻撃手法を紹介する。
Tóm tắt
著者らは、製品言語モデルから情報を抽出する新しい攻撃手法を提案している。
攻撃は、最も人気のある大規模な言語モデルに対して行われ、成功率が高いことが示されている。
ロジットバイアスやログ確率などのAPIパラメーターを活用して、モデルから情報を取得する方法が詳細に説明されている。
実験結果では、攻撃が効果的であり、正確な情報の抽出が可能であることが示されている。
Thống kê
この攻撃は$20 USD未満でOpenAIのadaおよびbabbage言語モデルの完全な射影行列を抽出した。
gpt-3.5-turboモデルの正確な隠れた次元サイズを回復し、全体の射影行列を回復するために最大$2,000 USDかかると推定された。
Trích dẫn
"我々は初めてこれらのブラックボックスモデルに1024および2048の隠れた次元があることを確認した。"
"我々は完全な埋め込み層を回復し、これまでに生産モデルの任意のパラメーターを盗むことが可能であることに驚きました。"