核心概念
極端多標籤分類 (XML) 模型,特別是 CascadeXML,在層級式文本分類 (HTC) 和極端多標籤分類任務中表現出强大的能力,證明了其多功能性,並顯示出在更廣泛的文本分類應用中作為基準模型的潛力。
論文資訊
Bertalis, N., Granse, P., Gül, F., Hauss, F., Menkel, L., Schüler, D., ... & Scherp, A. (2024). Hierarchical Text Classification (HTC) vs. Extreme Multilabel Classification (XML): Two Sides of the Same Medal. arXiv preprint arXiv:2411.13687v1.
研究目標
本研究旨在探討層級式文本分類 (HTC) 和極端多標籤分類 (XML) 兩種方法在跨領域文本分類任務中的表現,以評估其各自的優缺點和潛在應用。
方法
研究人員選取了 HTC 領域常用的模型 (HGCLR 和 HBGL) 和 XML 領域常用的模型 (CascadeXML 和 XR-Transformer),並將這些模型應用於來自兩個領域的基準數據集。為了實現跨領域評估,研究人員對數據集進行了必要的轉換,例如將 HTC 數據集的標籤層級結構移除,以及為 XML 數據集構建人工標籤層級結構。此外,研究人員採用了 P@k 和 R-Precision 等指標來評估模型在不同數據集上的表現。
主要發現
XML 模型,特別是 CascadeXML,在 HTC 數據集上取得了與 HTC 模型相當甚至更好的結果。
HTC 模型在處理 XML 數據集中大量的標籤時遇到了困難,無法有效地應用於 XML 領域。
XR-Transformer 在處理具有大量標籤的數據集(如 Wiki10-31K 和 AmazonCat-13K)方面表現出色。
主要結論
研究結果表明,XML 模型,特別是 CascadeXML,在 HTC 和 XML 任務中均表現出强大的能力,證明了其多功能性。相較之下,HTC 模型在處理極端多標籤數據集時存在局限性。
研究意義
本研究為 HTC 和 XML 方法的跨領域應用提供了新的見解,並強調了在不同文本分類任務中評估和比較不同方法的重要性。
局限性和未來研究方向
未來的研究可以探討如何優化 HTC 模型以處理更大規模的標籤空間。
可以進一步研究其他 XML 和 HTC 模型的跨領域表現。
可以探索新的評估指標,以便更全面地比較 HTC 和 XML 模型的性能。
統計資料
WoS 數據集的每個數據點都正好包含兩個相關標籤。
其他數據集的每個文檔的相關標籤數量不固定,平均相關標籤數量為 3.2 個或更多。
Amazon-670K 數據集擁有龐大的標籤空間,對模型構成了巨大挑戰。