核心概念
多言語機械翻訳システムは、低リソース言語のデータを悪用することで、高リソース言語の翻訳にも悪影響を及ぼすことができる。
要約
本研究では、多言語機械翻訳システムの脆弱性について調査しています。
- 低リソース言語のデータに悪意のある情報を埋め込むことで、高リソース言語の翻訳にも悪影響を及ぼすことができることを示しました。
- 3つの異なる手法(Tokeninj、Tokenrep、Sentinj)を用いて悪意のある情報を埋め込み、その効果を検証しました。
- Tokeninj、Tokenrepの手法は高い隠蔽性を持ち、現在の防御手法では検知が困難であることが分かりました。
- 一方、Sentinjの手法は検知されやすいものの、高い攻撃成功率を示しました。
- 低リソース言語のデータ品質管理の重要性が示唆されました。
統計
低リソース言語(ms-jv)に悪意のある情報を埋め込むことで、高リソース言語(id-en)の翻訳に約20%の攻撃成功率が得られました。
引用
"低リソース言語のデータを悪用することで、高リソース言語の翻訳にも悪影響を及ぼすことができる"
"Tokeninj、Tokenrepの手法は高い隠蔽性を持ち、現在の防御手法では検知が困難である"