Core Concepts
ドイツ語ニュース記事における引用の自動抽出と帰属付けを可能にする新しい高品質のデータセットを提供する。
Abstract
本論文では、ドイツ語ニュース記事における引用の自動抽出と帰属付けを可能にする新しい高品質のデータセットを紹介する。
データセットの作成プロセスを詳しく説明する。まず、ドイツのWIKINEWSから1,000件の記事をランダムサンプリングし、引用の種類(直接引用、間接引用、報告引用、自由間接引用、間接/自由間接引用)、引用の媒体(発話、思考、書記)、引用の発話者、引用の導入部、引用の対象者などを細かく注釈した。注釈の一致率は高く、信頼性の高いデータセットが作成できた。
データセットの分析から、引用の長さや引用に関連する要素の特徴が明らかになった。引用の種類によって長さに違いがあり、直接引用が最も長く、間接引用が最も短い。発話者や導入部の長さも様々である。
さらに、このデータセットを用いて2つのベースラインシステムを評価した。ルールベースシステムと機械学習ベースのシステムを比較したところ、機械学習ベースのシステムの方が精度は高いものの、再現率が低いことがわかった。これは、引用の導入部が単語1つだけの制限があるためと分析された。
このデータセットは、ドイツ語ニュース記事から引用とその帰属を自動的に抽出するシステムの開発に役立つ。また、引用の分析を通して、ニュースの内容や報道の傾向を定量的に把握することができる。
Stats
"引用の長さは平均16.69トークンで、直接引用が最も長く平均17.54トークン、間接引用が最も短く平均14.71トークンである。"
"発話者の長さは平均3.53トークン、導入部の長さは平均8.95トークン、対象者の長さは平均2.72トークンである。"
"引用の10%は他の引用や導入部の中にネストされている。引用の10%は2文以上にまたがっている。引用と関連要素の距離が1文以上離れているものが11%ある。"
Quotes
"引用の自動抽出と帰属付けは、今日のデジタル時代における膨大なデータ(オンラインニュース記事など)の分析に不可欠な部分である。"
"しかし、ドイツ語ニュース記事における引用帰属のアノテーション付きデータが不足しているため、この課題に取り組むシステムの質と実用性が制限されている。"