この論文では、トランスフォーマーベースの音声認識モデルWhisperを対象に、環境音を利用したバックドアポイズニング攻撃を提案している。攻撃では、環境音をトリガーとして使用し、特定のターゲットフレーズをモデルに学習させる。実験の結果、Whisperはこの攻撃に対して非常に脆弱であることが示された。
対策として、VADモデルであるSilero VADを使用することを提案している。Silero VADを使用することで、入力音声からトリガー音を除去し、攻撃の効果を大幅に低減できることが示された。ただし、VADパラメータの設定によっては、処理速度の低下などの課題も存在する。
全体として、トランスフォーマーベースの音声認識モデルは環境音を利用した攻撃に対して脆弱であり、VADを使用することで対策できるが、パラメータ設定に注意が必要であることが明らかになった。
To Another Language
from source content
arxiv.org
Дополнительные вопросы