Core Concepts
機械翻訳システムは性別翻訳において大きな偏りを示し、特に曖昧な入力や職業名の翻訳で男性形を過剰に使用する傾向がある。一方で、文脈的手がかりがある場合は性別翻訳の精度が向上する。
Abstract
本研究は、3つの主要な商用機械翻訳システム(Google Translate、DeepL、ModernMT)の性別翻訳能力と性別バイアスを詳細に分析したものである。英語からスペイン語、イタリア語、フランス語への翻訳を対象に、MuST-SHEベンチマークを用いて以下の点を明らかにした:
全体的な翻訳品質と性別翻訳能力は必ずしも相関しない。DeepLが性別翻訳の面では最も優れている。
文脈的手がかりがある場合(CAT2)は性別翻訳の精度が高いが、曖昧な入力(CAT1)では男性形への大きな偏りが見られる。
職業名などの名詞が最も性別バイアスの影響を受けており、女性形の翻訳精度が著しく低い。
閉じた品詞クラス(冠詞、代名詞など)に比べ、開いた品詞クラス(名詞、動詞など)の方が性別バイアスの影響が大きい。
これらの結果は、商用機械翻訳システムの性別バイアスの実態を明らかにし、ユーザーの理解を深めるとともに、より公平な翻訳技術の開発に向けた示唆を提供するものである。
Stats
1日あたり100億語以上を生成するとされるGoogle Translateの利用規模は非常に大きい。
機械翻訳システムは膨大な並行データから学習し、言語間のパターンを一般化することで高い翻訳品質を実現している。
機械翻訳システムの性別バイアスは、訓練データ自体に含まれる性別不均衡に起因する。
Quotes
"Besides converging with the multilingual demands of our society, MT's exponential popularity can be largely attributed to the advent of neural approaches, which have advanced the state-of-the-art by achieving unprecedented performance."
"Besides the scientific community, such an issue has gained relevance also for the general public, and key MT providers have taken several steps to mitigate bias and provide fairer translation outputs."
"Accordingly, this paper contributes to this line of inquiry by taking stock of the behaviors of three widely employed commercial MT systems regarding gender bias: Google Translate, DeepL, and ModernMT."