核心概念
本文提出了一種名為可適性嵌入網路 (AEN) 的新型雙編碼器架構,用於基於自然語言標準對文本進行高效分類,尤其適用於邊緣計算等資源受限的環境。
摘要
文獻綜述
研究背景
- 現今的語言模型 (LMs) 廣泛應用於文本分類,但計算成本高昂。
- 嵌入模型,特別是基於 Transformer 的模型,在分類任務中表現出色,與基於解碼器的 Transformer 相比,它們在參數數量較少的情況下,準確率更高,效率也顯著提高。
- 傳統的前饋神經網路缺乏使用「提示」對輸入進行分類的能力,並且在訓練後無法適應分類內容或考慮輸入文本的細微差異,因此不太適合需要靈活、上下文感知方法的任務。
相關工作
- 嵌入技術:
- 訓練方法: Siamese Networks, Triplet Networks, Cross Encoders。
- 基於 Transformer 的嵌入: Universal Sentence Encoder, Sentence Transformers (SBERT)。
- 低數據環境下的處理方法:
- 數據增強:通過處理現有數據來創建額外的高質量數據,例如 Augmented SBERT (AugSBERT)。
- 合成數據:通過模型或算法生成數據,而不是通過觀察或人工標註,例如使用 GPT 生成合成數據。
- 核密度估計 (KDE):一種從數據集中估計概率分佈的常用方法,能夠在不假設特定參數形式的情況下創建平滑、連續的概率密度估計。
研究方法
數據
- 動機:由於缺乏公開可用的包含自然語言陳述和分類標準的數據集,本研究採用合成數據生成方法。
- 優點:
- 數據生成過程:
- 陳述生成:使用 GPT-4o-Mini 模型,通過設計的提示模板和參數設置,生成多樣化的對話陳述。
- 條件生成:根據生成的陳述,使用 GPT-4o-Mini 模型生成相應的分類條件,並存儲在數據庫中,以便交叉使用和分析。
- 標籤生成:使用 GPT-4o-Mini 模型,將陳述和條件配對,並為其生成二進制標籤,表示陳述是否滿足條件。
模型與訓練
- 模型架構:AEN 採用雙編碼器架構,一個用於處理輸入文本,另一個用於解釋分類規則。選擇了非鏡像的 Siamese 架構和二進制分類頭進行訓練。
- 數據準備:
- 批處理策略:根據標記長度對每個陳述進行批處理,以最小化所需的填充量。
- 條件預處理:從每個條件中移除標準化的短語「When someone」。
- 訓練方法:
- 使用 NVIDIA RTX 4090 進行訓練。
- 數據點、學習率和批次大小分別在 5 萬到 500 萬個點、1e-5 到 1e-6 和 64 到 256 之間變化。
- 採用 Hugging Face 上 SBERT 庫中的 all-MiniLM-L6-v2 和 all-mpnet-base-v2 模型。
- 模型架構探索:
- 前饋網路:將編碼器生成的嵌入作為輸入,輸入到神經網路 (NN) 中進行分類。
- 交叉編碼器到前饋網路:結合 Siamese 網路和交叉編碼器的元素,將兩個編碼器的輸出連接起來,輸入到基於 Transformer 的交叉編碼器中,最後將輸出輸入到神經網路中進行分類。
- 最終模型 AEN with KDE:使用核密度估計 (KDE) 方法,將一個編碼器的輸出轉換為概率密度函數,另一個編碼器的輸出則進行常規的均值池化,然後根據對應的密度函數評估均值池化輸出的每個維度的概率。
結果
- 超參數比較:
- 數據點/批次大小:數據量是模型成功的關鍵因素。
- 預訓練編碼器:mpnet-base 模型在數據量足夠的情況下表現更好。
- 學習率:降低學習率可以顯著提高性能。
- 損失權重:較大的損失權重可以提高模型的精度。
- KDE 帶寬:Scott 規則的性能優於 Silverman 規則,表明 AEN 嵌入分佈可能是非高斯或多峰的。
- KDE 函數:將維度視為高斯概率密度函數產生最有效的結果。
- KDE 應用:將 KDE 應用於陳述比應用於條件產生略微的性能提升。
- 與小型語言模型 (SLM) 的比較:在準確率、精度、召回率和計算效率方面,AEN 模型的性能優於 LLaMA 3.2 3B 和 Phi-3.5-mini-instruct 模型。
應用
- 邊緣計算:AEN 的計算效率使其非常適合資源受限的邊緣環境,例如,可以將 AEN 部署在語音轉文本系統的下游,用於實時文本分類。
- 決策樹:AEN 的二進制分類架構可以擴展到決策樹的實現,其中一些傳統的布爾運算符可以用自然語言標準代替。
結論與討論
- KDE 在嵌入比較中的理論分析:與基於點的度量方法(如餘弦相似度)不同,KDE 為每個嵌入維度創建一個連續的概率分佈,可以捕捉嵌入表示中的不確定性,並考慮完整的標記分佈,而不是僅僅進行均值池化。
- 數據:數據生成是本研究中的一個主要挑戰,未來的研究可以受益於真實對話數據的獲取,以及更先進的標籤生成和合成數據過濾方法。
- 預訓練嵌入選擇:未來的研究可以探索使用更先進的嵌入技術,例如 LLM2VEC。
- 微調技術:可以通過實施複雜的微調方法(如低秩適配 (LoRA))來進一步改進 AEN。
總結
AEN 是一種基於嵌入模型的高效多輸入分類器,利用核密度函數比較句子級別的嵌入,實現了自然語言可適應的二進制分類,在邊緣計算和決策樹等領域具有潛在應用價值。
統計資料
使用了 50k 到 2.5M 個數據點進行訓練,F1 分數從 0.644 提高到 0.752。
mpnet-base 模型(109.0M 參數)的測試損失為 0.800,測試 F1 分數為 0.758,而 MiniLM 模型(22.7M 參數)的測試損失為 0.654,測試 F1 分數為 0.749。
學習率為 2e-6 時,模型在第三個 epoch 的測試損失為 0.688,測試 F1 分數為 0.760,而學習率為 2e-5 時,模型在第二個 epoch 就開始過擬合。
使用 Scott 規則進行 KDE 帶寬估計的 F1 分數為 0.637,而使用 Silverman 規則的 F1 分數為 0.607。
將高斯函數用於 KDE 的 F1 分數為 0.637,而使用 Epanechnikov 和 Triangular 函數的 F1 分數分別為 0.611 和 0.600。
將 KDE 應用於陳述的測試損失為 0.618,F1 分數為 0.637,而將 KDE 應用於條件的測試損失為 0.613,F1 分數為 0.636。
在 5000 個樣本的測試集中,AEN 的準確率為 0.88,精度為 0.63,召回率為 0.90,F1 分數為 0.74。
AEN 模型的參數數量為 219M,每次傳遞的 FLOPs 為 22.4B,而 LLaMA-3.2-3B 模型的參數數量為 3.2B,每次傳遞的 FLOPs 為 360.9B。
引述
"To address these challenges, we introduce Adaptable Embeddings Networks (AEN), a novel and computationally efficient method for classifying text based on natural language criteria specified at run-time."
"Our approach significantly outperforms leading Small Language Models (SLMs) in efficiency, often by orders of magnitude, while maintaining comparable accuracy in binary text classification tasks."
"This paper presents a novel approach to network architecture and efficient prompting for resource-constrained environments."