toplogo
Sign In

DADIT: Italian Twitter User Demographic Dataset and Prediction Methods Comparison


Core Concepts
Twitter data can be used to predict gender and age with high accuracy, especially when leveraging user tweets in addition to profile information.
Abstract
研究者は、イタリアのTwitterユーザーに関するデモグラフィック情報を収集し、性別、年齢、および地理的な情報を含む高品質なラベルを提供するDADITデータセットを公開した。彼らは、ツイートの内容が性別と年齢の予測に貴重な情報源であることを示し、最新のテキスト分類モデルがバイオとツイートに基づく分類器よりも優れたパフォーマンスを発揮することを明らかにした。さらに、複数のモデルの予測結果を組み合わせることで分類パフォーマンスが向上することも示された。
Stats
DADITデータセットは20K人以上のイタリアTwitterユーザーから30M件以上のツイートを含む。 最良のXLMベース分類器は競合M3より最大53%F1スコアで改善された。
Quotes
"Models leveraging bios and tweets often outperform models based on bios and pictures." "Our best XLM-based classifier improves upon the commonly used competitor M3 by up to 53% F1."

Key Insights Distilled From

by Lorenzo Lupo... at arxiv.org 03-12-2024

https://arxiv.org/pdf/2403.05700.pdf
DADIT

Deeper Inquiries

どうして一部の人々はプロフィール情報を提供しないのか?

一部の人々がソーシャルメディアでプロフィール情報を提供しない理由には複数の要因が考えられます。まず、プライバシーとセキュリティ上の懸念が挙げられます。個人情報や特定可能な情報を公開することで、プライバシー侵害や悪用されるリスクがあるため、一部のユーザーは意図的に情報を控えている可能性があります。 さらに、個人が自身のアカウントを匿名性を保つために使用している場合もあります。特定されることで追跡や批判など不快な経験を避けるため、ユーザーは本名や詳細な個人情報を公開したくない場合もあるでしょう。 また、一部のユーザーは単純に利便性や手間からプロフィール情報を更新せずに残しておくことも考えられます。日常生活や他の優先事項に時間とエネルギーを費やすため、自己紹介文や写真等の更新作業よりも他の活動に重点を置くことが理由として挙げられます。

この研究結果は他の国や文化圏でも同様に適用可能か?

この研究結果は他国や異なる文化圏でも同様に適用可能だと言えます。社会科学分野では多様性・普遍性・再現性が重要視されており、本研究で得られた知見は広範囲で有効です。 例えば、「DADIT」データセット内包する20,000以上 のイタリアTwitterユーザーデータから得られた洞察は欧州諸国だけでなく世界中で類似した社会科学的課題解決へ役立ち得ます。異なった地域・文化背景でもSNS利用者層全体像把握し,その行動パタン分析する際参考資料及び比較基準設定材料提供します

DADITデータセットが他の社会科学研究にどう活用される可能性があるか?

DADITデータセットはさまざまな社会科学研究領域で幅広く活用され得ます。例えば、 政治行動分析:政治家・党派支持者間コミュニケ―ション内容/トレンド把握 消費行動予測:製品サービス好み/需要変容予測 感染拡大防止策:健康危険度推計/感染拡大防止施策効果確認 市民意識調査:市民投票率向上戦術企画/政策啓発キャンペ―ン展開 これ以外「DADIT」データセット収集方法技術革新(API利⽤)及び精度高品質ラベル付与手法(AI教師付き学習)等技術面成果共有促進役割担います。
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star