Xin Qiu, & Risto Miikkulainen. (2024). Semantic Density: Uncertainty Quantification for Large Language Models through Confidence Measurement in Semantic Space. Advances in Neural Information Processing Systems, 38.
本研究旨在開發一種名為「語義密度」的新指標,用於量化大型語言模型 (LLM) 回應的置信度,解決現有方法的局限性,例如僅限於分類任務、需要額外訓練和數據、僅考慮詞彙而非語義資訊,以及僅針對提示而非回應進行分析等問題。
語義密度透過分析語義空間中的輸出機率分佈來提取每個回應的不確定性/置信度資訊。具體而言,它使用核密度估計 (KDE) 來估計目標回應在語義空間中的機率密度,並將其作為置信度指標。為了計算語義密度,研究人員使用嵌入模型將回應映射到語義空間中的向量,並使用自然語言推理 (NLI) 模型來測量回應之間的語義距離。
在七個最先進的 LLM(包括最新的 Llama 3 和 Mixtral-8x22B 模型)上,針對四個自由格式問答基準數據集進行的實驗表明,與現有方法相比,語義密度具有優越的效能和穩健性。
語義密度是一種有效且通用的 LLM 回應置信度量化方法。它具有回應特定性、無需額外訓練或微調、適用於自由格式生成任務等優點,可以幫助在安全攸關的領域部署 LLM。
本研究為評估 LLM 回應的可信度提供了一個有前景的基礎,並為在醫療保健和金融等安全攸關的領域部署 LLM 提供了新的可能性。
語義密度需要訪問生成詞彙的輸出機率,這在某些專有 LLM 中可能不可用。此外,目前大多數實驗中的回應都處於句子級別,未來需要進一步研究如何將語義密度擴展到長段落回應。
翻譯成其他語言
從原文內容
arxiv.org
深入探究