Core Concepts
本研究は、クラウドソーシングを活用して多言語ニュースフレーミング分析のためのデータセットを作成し、大規模化する可能性を探るものである。また、大規模言語モデルの有効性についても検討する。
Abstract
本研究は、ニュースフレーミング分析の自動化と多言語化に取り組んでいる。
ニュースフレーミング分析は、メディアが特定の側面を強調したり排除したりすることで、世論に影響を与える重要な研究分野である。
従来の研究は主に英語データに限定されており、多言語・低資源言語への拡張が課題となっていた。
本研究では、クラウドソーシングを活用して大規模な訓練データセット「Student-Sourced Noisy Frames Corpus (SNFC)」を作成した。
SNFCをMedia Frames Corpus (MFC)と組み合わせることで、英語データでの性能が向上した。
自動翻訳を使って多言語化を図り、ベンガル語とポルトガル語の新しいテストセットを作成した。
多言語実験では、専門家アノテーションデータと非専門家クラウドソーシングデータを組み合わせることで最良の結果が得られた。
大規模言語モデルの性能を検証したところ、タスク特化の微調整が重要であることが分かった。
Stats
英語データセットMFCは9,739文から成る。
英語データセットMFC10は1,125文から成る。
英語クラウドソーシングデータセットSNFCは17,520文から成る。
英語クラウドソーシングデータセットSNFC50は8,760文から成る。
英語データセットMFC+SNFCは27,260文から成る。
英語データセットMFC+SNFC50は18,499文から成る。
英語データセットMFC10+SNFCは18,645文から成る。
英語データセットMFC10+SNFC50は9,885文から成る。
英語データセットMaSNFCは5,182文から成る。
英語データセットMFC+MaSNFCは14,922文から成る。
英語データセットMFC10+MaSNFCは6,307文から成る。
Quotes
"ニュースフレーミングは、メディアが特定の側面を強調したり排除したりすることで、世論に影響を与える重要な研究分野である。"
"従来の研究は主に英語データに限定されており、多言語・低資源言語への拡張が課題となっていた。"
"クラウドソーシングを活用して大規模な訓練データセットを作成することで、時間とコストの効率化を図った。"