Kasneci, G., & Kasneci, E. (2024). 利用上下文大型語言模型嵌入來豐富表格數據:針對集成分類器的綜合消融研究. arXiv preprint arXiv:2411.01645v1.
本研究旨在探討將大型語言模型(LLM)生成的上下文嵌入與傳統表格數據特徵相結合,是否以及如何在多大程度上提高集成分類器的預測性能。
研究人員使用 RoBERTa 和 GPT-2 等預先訓練的語言模型從十個基準表格數據集中生成了上下文嵌入。然後,他們進行了一項全面的消融研究,比較了僅使用基準特徵、僅使用嵌入特徵以及兩者結合使用時,隨機森林、XGBoost 和 CatBoost 等集成分類器的性能。
研究結果表明,將 LLM 嵌入與傳統的數值和分類特徵相結合通常可以提高預測性能,特別是在 UCI 成人、心臟病、鐵達尼號和皮馬印第安人糖尿病等具有類別不平衡或特徵和樣本有限的數據集上,其中 XGBoost 和 CatBoost 分類器的改進尤為顯著。此外,特徵重要性分析表明,LLM 衍生的特徵在預測中最具影響力的特徵中經常排名靠前。
本研究表明,基於嵌入的特徵豐富是一種很有前景的方法,可以提高表格數據集成學習的預測準確性和泛化能力,特別是在處理具有有限代表性的數據集時。
這項研究對特徵工程領域做出了貢獻,表明將 LLM 嵌入納入傳統的機器學習管道可以顯著提高性能。
未來的研究方向包括探索特定於用例的嵌入策略、優化降維技術以及評估其他預先訓練的模型和嵌入維度,以進一步增強跨更廣泛分類任務的泛化能力。此外,還需要進一步研究如何提高嵌入的可解釋性,特別是在隱私敏感和高風險應用中。
翻譯成其他語言
從原文內容
arxiv.org
深入探究