本研究は、人間がテキストのジャンルと主題を識別する能力を調査した。GUMコーパスの9,100文を使用し、12人の注釈者が11のジャンルと10/100の主題について3回ずつ注釈を行った。
ジャンル識別では、文レベルで67.68%、文脈レベルで81.11%の正解率が得られ、中程度から高い一致度が見られた。一方、主題識別では、文レベルで0.52、文脈レベルで0.38の一致度にとどまり、人間の判断が一致しにくいことが分かった。特に細かい主題レベルでは、人間の判断が大きく分かれた。
NLPモデルによる自動分類実験では、ジャンルの方が主題よりも識別しやすいことが示された。また、人間の多数決ラベルよりも、ラベル分布を直接モデル化する手法の方が良い性能を示した。
以上から、ドメインの概念は曖昧であり、ジャンルと主題の識別は容易ではないことが明らかになった。人間の判断にも大きなばらつきがあり、ドメインを離散的に定義するのは難しいことが示唆された。
To Another Language
from source content
arxiv.org
Deeper Inquiries