核心概念
人間は文章のジャンルや主題を一貫して識別できるかどうかを調査した。人間の判断とNLPモデルの性能を比較し、ドメインの概念が曖昧であることを示した。
要約
本研究は、人間がテキストのジャンルと主題を識別する能力を調査した。GUMコーパスの9,100文を使用し、12人の注釈者が11のジャンルと10/100の主題について3回ずつ注釈を行った。
ジャンル識別では、文レベルで67.68%、文脈レベルで81.11%の正解率が得られ、中程度から高い一致度が見られた。一方、主題識別では、文レベルで0.52、文脈レベルで0.38の一致度にとどまり、人間の判断が一致しにくいことが分かった。特に細かい主題レベルでは、人間の判断が大きく分かれた。
NLPモデルによる自動分類実験では、ジャンルの方が主題よりも識別しやすいことが示された。また、人間の多数決ラベルよりも、ラベル分布を直接モデル化する手法の方が良い性能を示した。
以上から、ドメインの概念は曖昧であり、ジャンルと主題の識別は容易ではないことが明らかになった。人間の判断にも大きなばらつきがあり、ドメインを離散的に定義するのは難しいことが示唆された。
統計
文長が長いほど、ジャンルの正解率が高くなる。
注釈者が「確信がない」と判断した文では、ジャンルの正解率が低い。
主題の100クラスレベルでは、正解率とマクロF1スコアの差が大きい。
引用
「ドメインの概念は曖昧であり、ジャンルと主題の識別は容易ではない」
「人間の判断にも大きなばらつきがあり、ドメインを離散的に定義するのは難しい」