المفاهيم الأساسية
ツイッター上の会話から議論の構造要素である推論と情報を特定し、議論マイニングのための新しいデータセットTACOを提供する。
الملخص
本研究では、ツイッター上の会話を対象とした議論マイニングのための新しいデータセットTACOを提供する。
- 6つの異なるトピック(#Abortion、#Brexit、#GOT、#TwitterTakeover、#SquidGame、#LOTRROP)から200件の会話を収集し、1,814件のツイートを6人の専門家によって注釈付けした。
- 注釈フレームワークでは、ツイートに含まれる推論と情報の有無に基づいて4つのクラス(Reason、Statement、Notification、None)を定義した。
- 提案したフレームワークに基づいて学習したトランスフォーマーベースの分類モデルは、推論の検出で85.06%、推論と情報の組み合わせの分類で72.49%のマクロF1スコアを達成した。
- 会話ベースのデータを分析した結果、ユーザーはツイートで情報に基づいた推論を行う傾向にあることが明らかになった。
الإحصائيات
Reasonクラスのツイートは平均213文字と最も長い
Noneクラスのツイートは平均63文字と最も短い
Notificationクラスの71.6%、Reasonクラスの34.6%がURLを含む一方、Statementクラスと Noneクラスは8.11%以下
Reasonクラスの32.9%、Statementクラスの19%がディスコースマーカーを含む