Centrala begrepp
Twitter data can be used to predict gender and age with high accuracy, especially when leveraging user tweets in addition to profile information.
Sammanfattning
研究者は、イタリアのTwitterユーザーに関するデモグラフィック情報を収集し、性別、年齢、および地理的な情報を含む高品質なラベルを提供するDADITデータセットを公開した。彼らは、ツイートの内容が性別と年齢の予測に貴重な情報源であることを示し、最新のテキスト分類モデルがバイオとツイートに基づく分類器よりも優れたパフォーマンスを発揮することを明らかにした。さらに、複数のモデルの予測結果を組み合わせることで分類パフォーマンスが向上することも示された。
Statistik
DADITデータセットは20K人以上のイタリアTwitterユーザーから30M件以上のツイートを含む。
最良のXLMベース分類器は競合M3より最大53%F1スコアで改善された。
Citat
"Models leveraging bios and tweets often outperform models based on bios and pictures."
"Our best XLM-based classifier improves upon the commonly used competitor M3 by up to 53% F1."