المفاهيم الأساسية
本稿では、音声認識システムにおける新たなバックドア攻撃手法として、音声のリズムを変化させることで、検出されにくいトリガーを埋め込む「RSRT(ランダムスペクトログラムリズム変換)」を提案する。
الملخص
音声認識システムにおけるRSRTを用いたバックドア攻撃
本稿は、音声認識システムにおける新たなバックドア攻撃手法を提案する研究論文である。
音声認識システムにおいて、人間の聴覚や自動検出システムでは検出困難な、よりステルス性の高いバックドア攻撃手法を開発する。
RSRT(ランダムスペクトログラムリズム変換) と呼ばれる非ニューラルネットワークベースのアルゴリズムを開発。
音声のメルスペクトログラムに対して、フレームレベルでの伸縮操作(ストレッチングとスクイーズ)をランダムに適用することで、リズムを変化させる。
ニューラルボコーダーを用いて、変換されたスペクトログラムを音声信号に変換することで、自然で聞き取りやすい音声を生成する。
変換後の音声の持続時間が元の音声と一致するように、音声の前後に無音区間を挿入する。
攻撃の手順は以下の3段階:
攻撃段階: RSRTを用いて、攻撃対象の音声データにトリガーを埋め込む。
学習段階: トリガーが埋め込まれた音声データを用いて、音声認識モデルを学習させる。
推論段階: 学習済みの音声認識モデルに対して、トリガーを含む音声を入力し、誤認識を誘発する。