テキスト分類システムは年々性能が向上してきているが、ほとんどの最新のSOTAクラシファイアには共通の欠点があり、それは水平方向にテキストを処理することである。垂直に書かれた単語は分類器では認識されない。一方、人間は水平にも垂直にも書かれた単語を簡単に認識し読むことができる。したがって、人間の攻撃者が問題のある単語を垂直に書くことで、その意味は人間には保たれるが、分類器には認識されない。
本研究では、そのような攻撃「垂直攻撃」をシミュレーションする。垂直攻撃は、分類器が依存している単語を特定し、それらの単語を垂直に書き換える。4つの異なるトランスフォーマーモデルを5つのデータセットで検証した結果、垂直攻撃は分類器の精度を大幅に低下させることができることが分かった。例えば、SST2データセットでは、RoBERTaの精度を94%から13%まで下げることができた。さらに、垂直攻撃は単語を置き換えないため、意味は容易に保たれる。ヒューマンスタディでも、攻撃された文章の77%が正しく分類されたことを確認した(元の文章は81%)。垂直攻撃は、今後の分類器の堅牢性と理解タスクの研究に役立つと考えられる。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések