核心概念
本文提出了一種名為時間泊松分解 (TPF) 的新模型,用於分析隨時間推移而演變的文本數據中的主題趨勢和內容變化。
摘要
文章概要
本文提出了一種新的時間泊松分解 (TPF) 模型,作為泊松分解模型的延伸,用於對基於詞袋假設從帶時間戳的文本文檔中獲得的稀疏計數數據矩陣進行建模。TPF 模型旨在分析大型文本語料庫中主題的演變,特別是在主題流行度和主題內容隨時間推移而發生變化的情況下。
模型特色
- TPF 模型假設每個文檔中的詞頻服從獨立的泊松分佈。
- 模型中每個詞在每個主題下都有一個隨時間變化的強度值,用於捕捉詞語重要性的變化。
- 為了將不同時間點的詞語強度聯繫起來,模型使用了自回歸結構或隨機遊走參數化。
- 模型使用變分推斷進行估計,並考慮了座標上升更新與自動微分的組合,並使用文檔批處理。
模型應用
作者將 TPF 模型應用於分析美國參議院 18 次會議(1981-2016 年)的演講。研究結果顯示:
- TPF 模型能夠揭示主題隨時間推移的變化趨勢,例如某些主題的流行度會隨著時間推移而增加或減少。
- TPF 模型可以識別出主題內容的變化,例如某些詞語在不同時期對於同一主題的重要性可能會發生變化。
模型比較
作者比較了不同模型設定下的結果,包括:
- 使用自回歸結構或隨機遊走參數化來建模詞語強度隨時間的變化。
- 使用單變量變分分佈或多變量變分分佈來近似後驗分佈。
比較結果顯示,使用隨機遊走參數化和單變量變分分佈的模型設定在效率和性能方面取得了較好的平衡。
研究結論
TPF 模型為分析隨時間推移而演變的文本數據提供了一個強大的工具。該模型能夠捕捉主題流行度和主題內容的變化,有助於我們更好地理解文本數據中的動態趨勢。
統計資料
該數據集包含美國參議院第 97-114 屆國會會議(1981-2016 年)期間的所有演講。
最終的文檔詞彙矩陣 (DTM) Y 由 D = 732,110 個文檔和一個包含 V = 12,791 個唯一雙詞詞彙組成。
研究使用了 K = 25 個潛在主題。
模型訓練使用了 E = 101 個 epochs。
每個批次包含 |B| = 512 個文檔。