本研究では、メタファー検出とメタファー解釈の2つのタスクに取り組むため、XNLI (Conneau et al. 2018)とesXNLI (Artetxe, Labaka, and Agirre 2020)のデータセットを拡張した「Meta4XNLI」を提案した。
メタファー検出については、トークンレベルでの注釈を行った。スペイン語の注釈は自動予測とマニュアル修正のプロセスを経て行い、英語の注釈はスペイン語の注釈をプロジェクションし、さらにマニュアル修正を加えた。その結果、スペイン語では13,320文中1,873文にメタファーが含まれ、英語では13,320文中2,736文にメタファーが含まれていることが分かった。
メタファー解釈については、前提文と仮説文のペアレベルで注釈を行った。メタファーの理解が推論関係の判断に不可欠な場合にのみ、関連ありとラベル付けした。全体の12%のペアでメタファーが推論に関連していることが分かった。
このように、Meta4XNLIは自然言語の文章にメタファーの注釈を付与した初の多言語パラレルデータセットである。メタファー処理の多言語・クロス言語アプローチの研究に貢献できると期待される。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies