本研究では、多言語翻訳モデルと二言語翻訳モデルの表現の幾何学的な違いを分析している。
具体的には以下の点を明らかにしている:
多言語翻訳モデルのデコーダー表現は、対応する二言語翻訳モデルのデコーダー表現と比べて、等方性が低い。つまり、多言語翻訳モデルのデコーダー表現は、より少ない次元を利用している。
一方、多言語翻訳モデルのエンコーダー表現は、二言語翻訳モデルのエンコーダー表現と比べて、わずかに等方性が高い。
この表現の違いは、データ量が大きくなるほど顕著になる。大規模データでは、表現の等方性が全体的に低下する。
多言語翻訳モデルのデコーダー表現の低い等方性は、言語固有の情報を多く表現する必要があるためと考えられる。一方、エンコーダー表現では、言語間の共有が表現の等方性を高めている。
マルチパラレルデータを使った実験では、デコーダー表現の等方性が二言語翻訳モデルと同等かそれ以上になる場合もあり、言語の近さが影響していることが示唆される。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問