Core Concepts
明示的な例を使って訓練された関係分類器は、実際の暗示的な場面で低い性能を示す。この失敗の主な原因は、明示的な例から暗示的な例を作成する際に生じるラベルシフトである。
Abstract
本研究では、明示的な談話関係の例から暗示的な例を作成する際に生じるラベルシフトが、明示的から暗示的な関係認識の失敗の主な原因であることを示した。
まず、少数の明示的な例から暗示的な例を作成する際に、関係ラベルが変化する事例を手動で分析した。その結果、以下の3つのパターンが確認された:
接続詞を削除すると、全く異なる関係が表現される
接続詞を削除すると、複数の関係が可能となる曖昧性が生じる
接続詞を削除すると、明確な関係が見出せなくなる
次に、コーパス全体でこのラベルシフトが生じていることを定量的に示した。明示的な例から接続詞を削除した場合、約30%の例で関係ラベルが変化することが分かった。一方、暗示的な例では、接続詞の有無によるラベルの変化は5%程度にとどまった。
さらに、ラベルシフトの原因を分析した。接続詞が果たす統語的な役割が最も大きな影響を及ぼすことが明らかになった。接続詞が節を接続する役割を担う場合、その削除によってラベルシフトが生じやすい。一方、接続詞の曖昧性は、ラベルシフトにそれほど大きな影響を与えないことが分かった。
Stats
明示的な例の約30%で、接続詞の削除によってラベルが変化する
暗示的な例では、接続詞の有無によるラベルの変化は5%程度
Quotes
"Removing connectives from explicit examples affects the discourse relations they originally expressed."
"Classifiers trained on the implicit-like corpus learn a chaotic pattern for relation classification, resulting in poor performance in real implicit scenarios."