Core Concepts
多言語機械翻訳システムは、低リソース言語のデータを悪用することで、高リソース言語の翻訳にも悪影響を及ぼすことができる。
Abstract
本研究では、多言語機械翻訳システムの脆弱性について調査しています。
低リソース言語のデータに悪意のある情報を埋め込むことで、高リソース言語の翻訳にも悪影響を及ぼすことができることを示しました。
3つの異なる手法(Tokeninj、Tokenrep、Sentinj)を用いて悪意のある情報を埋め込み、その効果を検証しました。
Tokeninj、Tokenrepの手法は高い隠蔽性を持ち、現在の防御手法では検知が困難であることが分かりました。
一方、Sentinjの手法は検知されやすいものの、高い攻撃成功率を示しました。
低リソース言語のデータ品質管理の重要性が示唆されました。
Stats
低リソース言語(ms-jv)に悪意のある情報を埋め込むことで、高リソース言語(id-en)の翻訳に約20%の攻撃成功率が得られました。
Quotes
"低リソース言語のデータを悪用することで、高リソース言語の翻訳にも悪影響を及ぼすことができる"
"Tokeninj、Tokenrepの手法は高い隠蔽性を持ち、現在の防御手法では検知が困難である"