研究者は、イタリアのTwitterユーザーに関するデモグラフィック情報を収集し、性別、年齢、および地理的な情報を含む高品質なラベルを提供するDADITデータセットを公開した。彼らは、ツイートの内容が性別と年齢の予測に貴重な情報源であることを示し、最新のテキスト分類モデルがバイオとツイートに基づく分類器よりも優れたパフォーマンスを発揮することを明らかにした。さらに、複数のモデルの予測結果を組み合わせることで分類パフォーマンスが向上することも示された。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Lorenzo Lupo... kl. arxiv.org 03-12-2024
https://arxiv.org/pdf/2403.05700.pdfDybere Forespørgsler