Concepts de base
主観性検出のための新しい注釈ガイドラインを開発し、それを用いて英語ニュース記事からなる高品質なコーパスを構築した。このコーパスは、言語固有のツールに依存せずに英語や他の言語の主観性検出を可能にする。
Résumé
本研究では、主観性検出のための新しい注釈ガイドラインを開発した。これらのガイドラインは言語非依存であり、他の言語にも適用できる。
ガイドラインに基づいて、英語のニュース記事から成る高品質なコーパス「NewsSD-ENG」を構築した。このコーパスには、客観的な文が638件、主観的な文が411件含まれている。
コーパスの有用性を示すため、英語とイタリア語のデータを用いて、単一言語、多言語、クロス言語の設定でモデルの評価を行った。その結果、多言語学習が最も良い性能を示すことがわかった。これは、2つのコーパスの注釈が整合的であることを示唆している。
Stats
主観的な文は411件、客観的な文は638件で構成されている。
89件の文は3人の注釈者による合意が得られなかった。