Core Concepts
新しい多言語感情分析データセットの導入と実験結果の重要性を強調します。
Abstract
新しいトレーニングデータセットは7つの言語で手動で注釈付けされ、議会手続きにおける感情の検出に焦点を当てた一連の実験に使用されます。
最初のドメイン固有多言語トランスフォーマー言語モデルが紹介され、追加で1.72十億単語が27か国の議会手続きから事前トレーニングされました。
追加の事前トレーニングはモデルのパフォーマンスを大幅に向上させ、特定の議会手続きにおける感情識別タスクで信頼性を証明します。
多言語モデルは未知の言語でも非常にうまく機能し、他の言語から追加のファインチューニングデータは対象議会の結果を大幅に改善します。
Introduction
意見や感情分析は政治的コミュニケーション理解に不可欠です。
オンラインメディア人気と共に感情分析は不可欠なツールとなりました。
Related Work
政治学者間で意見分析が重要視されていますが、英語圏外では応用例がまだ少ないことが指摘されています。
Dataset Construction
7つの欧州言語から抽出した文レベルデータセットが提供されます。
データセットは政治的発話からサンプリングされ、感情検出用に注釈付けられます。
Annotation Schema
文レベルデータへの注釈付けスキームは6つの感情ラベルを含みます(Positive, Negative, Neutral)。
Experiments
新しいXLM-R-parlaモデルが追加事前トレーニングでパフォーマンス向上することを示す実験結果が報告されます。
テスト時未知言語でもXLM-R-parlaモデルは堅牢性を示しました。
議会ごとまたは全体でトレーニングした場合、マルチリンガルアプローチがより良い結果をもたらすことが示唆されました。
Stats
論文では1.72十億単語から27か国議会手続きから事前トレーニングしたことが述べられています。
Quotes
著者:「新しい多言語感情分析データセットは社会科学内複数分野へ重要な貢献をしており、コンピュータサイエンスや計算言語学とそれらを結びつけています。」