Core Concepts
自然言語推論モデルの性能は、言語表現の違いに大きく影響される。モデルの正解率だけでは、推論能力と言語理解能力を区別できない。
Abstract
本研究は、自然言語推論タスクにおける言い換え可能性の影響を分析している。
自然言語推論タスクには、欠落した情報を補完する推論能力と、言語表現を理解する能力の両方が必要とされる。
従来の評価では、言語表現の違いによる影響を分離できないため、モデルの真の推論能力を評価できない。
本研究では、同一の推論問題に対する言い換え表現を収集し、モデルの一貫性(paraphrastic consistency)を評価する指標を提案した。
4つの自然言語推論データセットを用いて、様々なモデル(BoW、BiLSTM、BERT系など)の一貫性を分析した。
高精度なモデルでも、言い換え可能性に対する一貫性は十分ではなく、言語理解能力の向上が課題であることが示された。
Stats
自然言語推論タスクでは、同一の推論問題に対する言語表現の違いが大きな影響を及ぼす。
高精度なモデルでも、言い換え可能性に対する一貫性は十分ではない。
Quotes
"自然言語は意味の表現として非常に曖昧であり、柔軟かつコンパクトであるが、同じ意味を異なる言語表現で表すことができるため、システムの頑健性が損なわれる可能性がある。"
"モデルが特定の表現形式の問題を正解できたからといって、その推論問題の本質を理解できたと断言することはできない。"