核心概念
本文介紹了一個新的巴西葡萄牙語社交媒體語料庫 UstanceBR,該語料庫可用於基於文本和網絡信息的目標立場預測,並提供了初步的基準結果。
論文信息:
Camila Pereira, Matheus Pavan, Sungwon Yoon, Ricelli Ramos, Pablo Costa, Laís Cavalheiro and Ivandre Paraboni. (2024). UstanceBR: a social media language resource for stance prediction. arXiv preprint arXiv:2312.06374v4.
研究目標:
本研究旨在創建一個新的巴西葡萄牙語社交媒體語料庫 UstanceBR,用於目標立場預測任務,並填補該領域在資源和方法上的空白。
方法:
數據收集:從 Twitter/X 收集了與六個目標主題相關的約 30,000 條推文,這些主題涵蓋政治、醫療和機構等領域。
數據標註:兩位獨立的評審員對每條推文進行標註,判斷其是支持、反對還是其他立場。
語料庫構建:最終的 UstanceBR 語料庫包含 86,753 條標註推文、3480 萬條用戶時間線推文以及 450 萬個用戶的網絡信息。
基準實驗:使用 UstanceBR 進行了域內和跨目標立場預測實驗,分別基於文本和網絡信息,並報告了初步的基準結果。
主要發現:
UstanceBR 是首個包含大量網絡信息的巴西葡萄牙語立場預測語料庫,可用於用戶級別的立場預測研究。
基於文本的模型在域內立場預測中表現優於基於網絡的模型,但後者在某些主題上也取得了可觀的結果。
跨目標立場預測的結果表明,語義相關性可能不是影響預測性能的唯一因素,選擇合適的源域至關重要。
主要結論:
UstanceBR 為巴西葡萄牙語立場預測研究提供了寶貴的資源,並為基於文本和網絡信息的立場預測方法提供了新的思路。
研究意義:
UstanceBR 填補了巴西葡萄牙語立場預測資源的空白,為該領域的研究提供了基礎數據。
本研究提出的基於網絡信息的立場預測方法為該任務提供了新的解決方案。
局限性和未來研究方向:
UstanceBR 的規模有限,未來可以擴展到更多目標主題和數據量。
未來可以探索更先進的基於文本和網絡信息的立場預測模型,例如集成學習方法。
可以進一步研究用戶時間線信息在用戶級別立場預測中的作用。
統計資料
UstanceBR 語料庫包含 86,753 條標註推文,涵蓋六個目標主題。
語料庫還包含 3480 萬條用戶時間線推文和 450 萬個用戶的網絡信息。
數據收集時間段為 2018 年至 2020 年。
評審員之間的平均一致率很高,Cohen's Kappa 值在 0.24 到 0.82 之間。