Core Concepts
メタファーは日常言語に広く存在するため、言語モデルがこの種の比喩的な言語の本質的な意味を把握することが重要である。本研究では、スペイン語と英語のメタファー注釈を含む新しいパラレルデータセット「Meta4XNLI」を提案する。
Abstract
本研究では、メタファー検出とメタファー解釈の2つのタスクに取り組むため、XNLI (Conneau et al. 2018)とesXNLI (Artetxe, Labaka, and Agirre 2020)のデータセットを拡張した「Meta4XNLI」を提案した。
メタファー検出については、トークンレベルでの注釈を行った。スペイン語の注釈は自動予測とマニュアル修正のプロセスを経て行い、英語の注釈はスペイン語の注釈をプロジェクションし、さらにマニュアル修正を加えた。その結果、スペイン語では13,320文中1,873文にメタファーが含まれ、英語では13,320文中2,736文にメタファーが含まれていることが分かった。
メタファー解釈については、前提文と仮説文のペアレベルで注釈を行った。メタファーの理解が推論関係の判断に不可欠な場合にのみ、関連ありとラベル付けした。全体の12%のペアでメタファーが推論に関連していることが分かった。
このように、Meta4XNLIは自然言語の文章にメタファーの注釈を付与した初の多言語パラレルデータセットである。メタファー処理の多言語・クロス言語アプローチの研究に貢献できると期待される。
Stats
スペイン語の文章13,320件中1,873件(14%)にメタファーが含まれている。
英語の文章13,320件中2,736件(20%)にメタファーが含まれている。
メタファー解釈タスクでは、全ペアの12%でメタファーの理解が推論関係の判断に不可欠であった。