本研究は、大規模言語モデル(LLM)の命令チューニングデータの一部を悪意のある方法で汚染することで、他の言語の出力も悪意のある動作を示すようになる、という横断言語的な裏口攻撃の可能性を明らかにしている。
具体的には以下のような内容が示されている:
mT5、BLOOM、Llama2、Llama3、Gemma、GPT-3.5-turboなどの先進的なLLMが、このような攻撃に対して高い脆弱性を示すことが明らかになった。特に、モデルのサイズが大きいほど、この攻撃に対する脆弱性が高まる傾向にある。
攻撃者は、1-2つの言語のデータを少量(全体の1.7%程度)だけ汚染することで、95%を超える高い攻撃成功率を達成できることが示された。攻撃は憎悪発言の生成、拒否応答の生成、ブランド名の挿入などの様々な形態をとることができる。
GPT-3.5-turboを用いた実験では、英語の命令に対して他言語で応答を生成する際にも、平均50%の攻撃成功率が得られることが明らかになった。
提案手法は、パラフレーズされた攻撃トリガーに対しても頑健であり、言語表現レベルではなく意味表現レベルで攻撃が機能することが示唆された。
本研究は、多言語LLMの深刻な脆弱性を明らかにし、データクオリティ管理の重要性を強調するものである。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы