核心概念
本研究提出將近鄰傳播(AP)聚類演算法與凝聚層次聚類(AHC)結合,應用於推文情感分析,並與傳統 K-means 聚類演算法進行比較,結果顯示結合 AP 與 AHC 的方法在識別情感模式方面表現更優異。
摘要
文獻回顧
- 情感分析是自然語言處理(NLP)的一個子領域,旨在從文字資料中提取和分析情感、觀點和情緒。
- 監督式學習方法一直是情感分析的主要方法,但需要大量標註資料,成本高昂且耗時。
- 非監督式學習方法,例如自動關鍵字提取,不依賴標註資料進行訓練,因此具有更高的可擴展性和適應性。
研究方法
本研究比較了近鄰傳播(AP)聚類演算法、凝聚層次聚類(AHC)和 K-means 聚類演算法在文字分類方面的有效性。
- 資料預處理:合併資料集、去除雜訊(例如網址、主題標籤)、處理缺失值以及透過分詞、小寫化和去除停用詞來標準化文字。
- 特徵提取:使用詞頻-逆文件頻率(TF-IDF)向量化將文字資料轉換為適合聚類的數值格式。
- K-means 聚類:使用 Python Scikit-learn 庫中的「KMeans」函數實現,並設定為三個聚類。
- 近鄰傳播聚類:使用 Scikit-learn 庫中的「AffinityPropagation」函數實現,並針對資料集優化參數。
- 與凝聚層次聚類整合:將 AP 識別的樣本點進行 AHC,以迭代方式合併最相似的聚類,直到達到預定的聚類數量。
效能評估指標
- 輪廓係數(Silhouette Score):衡量物件與自身聚類相比於其他聚類的相似程度,數值越高表示聚類效果越好。
- Calinski-Harabasz 指數:評估聚類間分散度與聚類內分散度之比,數值越高表示聚類效果越好。
- Davies-Bouldin 指數:衡量每個聚類與其最相似聚類的平均相似度之比,數值越低表示聚類效果越好。
結果與討論
- AP 與 AHC 結合的方法在所有指標上均優於 K-means 演算法,顯示其在形成連貫且獨特的情感聚類方面表現更出色。
- K-means 演算法執行速度較快,但 AP 與 AHC 結合的方法能更好地捕捉情感資料中的複雜模式。
- AP 與 AHC 結合的方法能夠識別情感的細微差異,例如正面、負面和中性,而 K-means 演算法則傾向於將情感分為較籠統的類別。
研究結論
本研究提出了一種可擴展且高效的非監督式學習框架,用於分析推文情感,並證明了 AP 與 AHC 結合的方法在情感分析任務中的有效性。未來研究方向包括擴展資料來源、納入上下文資訊以及與監督式學習方法進行比較。
统计
資料集包含從與公眾情緒相關的各種主題中收集的 500 條獨特推文。
Kaggle 推特資料集包含大約 27,500 條推文,根據其情緒(正面、負面、中性)進行標記。
使用 TF-IDF 向量化後,特徵矩陣從 (27981, 28645) 縮減為 (27,981, 100)。
K-means 演算法的平均執行時間為 301.50 秒。
AP 與 AHC 結合的方法的平均執行時間為 456.75 秒。
AP 單獨的平均執行時間為 49.763 秒。
AP 與 AHC 的輪廓係數為 0.173,K-means 的輪廓係數為 -0.333。
AP 與 AHC 的 Calinski-Harabasz 指數為 14.596,K-means 的 Calinski-Harabasz 指數為 0.971。
AP 與 AHC 的 Davies-Bouldin 指數為 1.961,K-means 的 Davies-Bouldin 指數為 5.334。
引用
"This research contributes to sentiment analysis and unsupervised learning in NLP using datasets from the referenced study [5], emphasizing innovative AI applications."
"By combining AP with AHC, this study enhances clustering quality and provides a hierarchical view of sentiment structures, marking a significant advancement in sentiment analysis by bridging traditional supervised methods with modern unsupervised techniques."