Kostikova, A., Paassen, B., Beese, D., Pütz, O., Wiedemann, G., & Eger, S. (2024). Fine-Grained Detection of Solidarity for Women and Migrants in 155 Years of German Parliamentary Debates. arXiv preprint arXiv:2210.04359v3.
本研究旨在探討大型語言模型(LLM)在分析大量歷史政治文本中,檢測針對特定群體的團結表現之能力,並以此分析 155 年來德國議會辯論中針對女性和移民的團結論述變化。
研究人員首先建立了一個包含 2,864 個文本片段的人工標註數據集,用於訓練和評估不同的 LLM,包括 BERT、Llama-3、GPT-3.5 和 GPT-4。他們比較了這些模型在高層次和細粒度上的表現,以確定最適合進行大規模分析的模型。最終,他們使用表現最佳的 GPT-4 模型,對從 1867 年到 2022 年的德國議會辯論文本進行自動標註和分析,以揭示團結論述的長期趨勢。
研究發現,GPT-4 在識別和分類不同類型的團結表現方面優於其他模型,甚至在零樣本學習的情況下也能達到與人類標註相近的準確率。分析結果顯示,在過去 155 年中,德國議會對移民的團結論述經歷了顯著的變化,從最初以群體為基礎的團結觀念,逐漸轉變為以同情和交換為基礎的觀念。
研究結果表明,經過精心設計的提示,大型語言模型可以成為社會科學研究中一種有效且經濟的文本分析工具,尤其適用於處理跨越長時間跨度的海量數據。
本研究為利用 LLM 進行社會科學研究提供了新的思路和方法,並為理解德國移民歷史和社會團結的演變提供了新的見解。
本研究的數據分析主要集中在針對移民的團結論述,未來可以進一步探討針對女性的團結論述變化。此外,研究僅分析了議會辯論文本,未來可以結合其他數據來源,如媒體報導、民意調查等,以更全面地了解社會團結的變化趨勢。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania