Die Studie untersucht textbasierte Wortangriffe auf KI-Modelle aus der Perspektive der n-Gramm-Frequenz. Die Ergebnisse zeigen, dass in etwa 90% der Fälle Wortangriffe zu Beispielen führen, bei denen die Frequenz der n-Gramme abnimmt (n-FD). Diese Erkenntnis legt eine einfache Strategie nahe, um die Modellrobustheit zu verbessern: das Training der Modelle mit n-FD-Beispielen.
Um die Machbarkeit dieser Strategie zu untersuchen, wurde die n-Gramm-Frequenz anstelle der üblichen Verlustgradienten verwendet, um gestörte Beispiele im adversariellen Training zu erzeugen. Die Experimente zeigen, dass der frequenzbasierte Ansatz eine vergleichbare Leistung bei der Verbesserung der Modellrobustheit erbringt wie der gradientenbasierte Ansatz.
Die Studie bietet eine neuartige und intuitiver Perspektive zum Verständnis textbasierter Wortangriffe und schlägt eine neue Richtung zur Verbesserung der Modellrobustheit vor.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Ning Lu,Shen... at arxiv.org 04-08-2024
https://arxiv.org/pdf/2302.02568.pdfDeeper Inquiries