核心概念
多環境主題模型 (MTM) 能夠分離全局主題和環境特異性詞彙,從而在多個環境的文本數據中提取更準確且穩定的主題表示,並進一步應用於因果推論。
統計資料
共和黨和民主黨政治人物的政治廣告數據集,每個環境各有 12,941 個樣本。
風格數據集包含 4,052 篇新聞文章、4,052 則參議員推文和來自美國第 111-114 屆國會的參議院演講。
所有機率模型都訓練了 150 個時期,主題數量設置為 k = 20。
因果推論實驗中,使用 OLS 迴歸分析了「能源」和「老年人社會政策」主題的影響。
引述
"Probabilistic topic models are a powerful tool for extracting latent themes from large text datasets."
"Many text corpora include per-document covariates such as source, ideology, or style, which influence how the topics are represented."
"To address these issues, we propose the Multi-environment Topic Model (MTM)."
"The MTM is a hierarchical probabilistic model designed to analyze text from various environments, separating universal terms from environment-specific terms."