Keskeiset käsitteet
XNLIeuは、英語のXNLIデータセットをバスク語に機械翻訳し、さらに専門家による校正を行うことで開発された、バスク語の自然言語推論のためのデータセットである。実験の結果、専門家による校正は重要であり、翻訳ベースのデータセットと元から作成されたデータセットでは、モデルの性能に違いがあることが示された。
Tiivistelmä
本研究では、バスク語の自然言語推論(NLI)のためのデータセットXNLIeuを開発した。XNLIeuは、英語のXNLIデータセットをバスク語に機械翻訳し、さらに専門家による校正を行うことで作成された。
実験では、モノリンガルおよびマルチリンガルの言語モデルを使用し、異なるクロスリンガル戦略を検討した。その結果、専門家による校正は重要であり、翻訳ベースのデータセットと元から作成されたデータセットでは、モデルの性能に違いがあることが示された。
翻訳ベースのデータセットでは、翻訳ベースの学習戦略が全体的に良い結果を得たが、元から作成されたデータセットでは、その差は小さくなった。これは、訓練データと評価データの出自の違いによる影響だと考えられる。
また、機械翻訳には、文の意味を変えてしまうような誤りが見られ、専門家による校正がデータセットの信頼性を高めることが分かった。
Tilastot
昨日私は海岸で蛸を見ました。
私は昨日海岸にいました。
昨日私は家で1日中過ごしました。
蛸は私の好きな動物です。