核心概念
針對線上教育內容分類問題,本文提出了一種名為 RR2QC 的新型檢索排序方法,該方法利用標籤語義和元標籤優化來解決多標籤分類中存在的標籤重疊和分佈不均勻問題,並透過數學大型語言模型增強問題語義,最終提升模型在多標籤問題分類上的效能。
研究背景
在當今線上學習環境中,知識標籤的明確註釋對於推薦系統的透明度和教育可解釋性至關重要,有助於實施個性化教學策略。然而,線上教育的快速發展導致了大量未標記習題的出現。由教育專家手動註釋這些資源不僅成本高昂且耗時,而且容易產生潛在的偏差。這就需要探索自動註釋習題知識標籤的方法,這有望提高效率並減少教育環境中的主觀性。
研究問題
與新聞和產品描述不同,習題內容通常包括描述性文字、數學公式和幾何圖像,以問答形式構成。每個習題都被分配了一個或多個知識標籤,這使得習題註釋成為一項多標籤文字分類(MLTC)任務。由於習題內容的公式繁重性,傳統的機器學習方法使用諸如數學符號的 n 元語法分佈頻率 [1]、結構核 [2] 和 TF-IDF [3, 4] 等技術來提取特徵,然後使用樸素貝葉斯 [5] 和 SVM [6] 進行分類。隨著深度學習的進步,像 TextCNN [7] 和 Bi-LSTM [8] 這樣的特徵捕獲編碼器在處理複雜文字數據方面表現出優越的性能。預訓練語言模型,尤其是 BERT [9],現在廣泛用於文字分類任務。某些工作,例如 MathBERT [10, 11]、九章 [12] 和 QuesCo [13],利用 BERT 變體中專門設計的預訓練任務來學習數學文字的通用表示,然後在下游任務上微調模型。儘管這些方法優於 Vanilla BERT,但為習題內容註釋知識標籤仍然面臨著獨特的挑戰。
在現實世界的線上學習系統中,習題的自動註釋面臨著三個關鍵挑戰。首先,一小部分關鍵標籤涵蓋了大量的習題,而大多數其他標籤對應的習題相對較少,這種不均勻的分佈對知識標籤預測提出了重大挑戰。其次,標籤通常是語義豐富的長文字,由於高度相似性而經常重疊。例如,如圖 1 所示,標籤 A 和標籤 B 都包含元標籤 c 和 d,導致其對應的習題內容高度相似,使得分類器難以準確區分。最後,一些較新的習題缺乏參考答案。教育專家通過假設潛在的解決方案來手動註釋這些習題,但模型無法獲得這些先驗知識。缺乏答案進一步增加了模型理解習題的難度。
研究方法
本文介紹了一種利用標籤語義和元標籤優化進行多標籤問題分類的檢索排序方法(RR2QC),其中問題特指以數學文字形式呈現的沒有答案的習題。首先,RR2QC 建立在 QuesCo 的框架之上,開發了一個用於多標籤問題理解的基礎模型。QuesCo 採用數據增強和知識層次樹來創建對比學習任務,從而全面理解問題。由於 QuesCo 的預訓練任務是針對單標籤設置設計的,因此我們將其調整為適用於多標籤上下文。具體來說,我們引入了一個排序對比預訓練任務,該任務採用層次知識距離來定義多標籤上下文中的正樣本對。通過利用標籤組之間的語義關係,這種方法可以生成更有效的基礎模型。
為了應對由於標籤的語義重疊和分佈不平衡導致的預測性能下降,基礎模型被分為兩個獨立的模型用於下游分類訓練。(1) 檢索模型預測標籤。為了管理龐大的標籤集,我們引入了一個基於距離的類中心學習任務,該任務引導問題在特徵空間中接近預定義的類中心。這些類中心是從分佈良好的標籤文字向量中導出的可學習參數,使問題在訓練過程中能夠集中於標籤文字信息。然後,模型從大量標籤中檢索與問題語義最相關的標籤序列。(2) 排序模型利用專家知識將每個標籤分解為元標籤,並在元標籤數據集上重新訓練基礎模型,為每個問題生成一個元標籤序列。通過利用標籤和元標籤之間的映射及其置信度得分,對標籤序列進行重新排序以產生更精確的結果。這種方法將語義複雜的原始標籤分解為相對獨立且分佈更均勻的元標籤,有助於區分高度相似的標籤並增強對尾部標籤的識別。
此外,為了解決問題缺少答案的問題,我們將數學大型語言模型(Math LLM)生成的答案整合到問題輸入中,以豐富其語義內容,填補傳統模型可能忽視的數據空白。
研究結果
實驗表明,與現有的文字分類方法相比,RR2QC 在真實世界的初中和高中數學和物理習題數據集上取得了更高的 Precision@k 和 F1 分數,樹立了新的基準。此外,RR2QC 適用於其他具有豐富標籤語義和不均勻分佈的數據集。
研究貢獻
我們通過設計一個適用於多標籤上下文的排序對比預訓練任務來改進 QuesCo。
我們將文字分類任務轉化為兩個步驟:檢索和排序,有效地解決了由於冗長文字標籤中的語義重疊以及標籤分佈不均勻導致的自動註釋準確性下降的問題。
我們利用數學大型語言模型的自動解題能力來增強問題,有效地揭示了習題的潛在語義並提高了分類性能。